Was ist Datenanalyse? Verschiedene Arten von Datenanalysen

Inhaltsverzeichnis:

Anonim

Was ist Datenanalyse?

Data Analytics ist ein Prozess, bei dem wichtige Erkenntnisse und wertvolle Schlussfolgerungen aus einer Vielzahl von Daten gewonnen oder aus verschiedenen Quellen gesammelt werden, um die Entscheidungsfindung zu unterstützen. Erhöhte Rechenleistung, hohe Verarbeitungsgeschwindigkeit. Das Aufkommen interaktiver Endbenutzeroberflächen und die nachgewiesene Effizienz des Paradigmas der verteilten Datenverarbeitung für den Umgang mit großen Datenmengen haben dazu geführt, dass die Datenanalyse in allen Bereichen voranschreitet, insbesondere in den Bereichen Einzelhandel, Bankwesen, Gesundheitswesen, Logistik, Verteidigung, öffentliche Verwaltung usw.

Arten der Datenanalyse

Der Datenanalyseprozess wird subjektiv in drei Typen eingeteilt, basierend auf dem Zweck, Daten wie folgt zu analysieren

  • Beschreibende Analytik
  • Predictive Analytics
  • Prescriptive Analytics

Die Funktionen der oben aufgeführten Analysetypen werden nachfolgend beschrieben:

1. Beschreibende Analytik

Descriptive Analytics konzentriert sich auf die Zusammenfassung vergangener Daten, um Schlussfolgerungen abzuleiten. Die am häufigsten verwendeten Kennzahlen zur quantitativen Charakterisierung der Verteilung historischer Daten umfassen

  • Messungen der zentralen Tendenz - Mittelwert, Median, Quartile, Modus.
  • Messungen der Variabilität oder Streuung - Bereich, Interquartilbereich, Perzentile.

In jüngster Zeit werden die Schwierigkeiten und Einschränkungen, die mit dem Sammeln, Speichern und Verstehen massiver Datenmengen verbunden sind, durch statistische Inferenzprozesse überwunden. Verallgemeinerte Rückschlüsse auf die Statistik von Bevölkerungsdatensätzen werden mithilfe von Stichprobenverfahren und der Anwendung der zentralen Limitierungstheorie abgeleitet.

Ein führender Nachrichtensender sammelt am Wahltag am Ausgang eines Wahllokals Wahldetails von zufällig ausgewählten Wählern, um statistische Rückschlüsse auf die Vorlieben der gesamten Bevölkerung zu ziehen.

Wiederholtes Abtasten des Populationsdatensatzes führt zu Stücken von Proben mit ausreichend großem Stichprobenumfang. Clustered Sampling wird im Allgemeinen bevorzugt, um gut geschichtete, unvoreingenommene Repräsentanten des Populationsdatensatzes zu generieren. Das statistische Maß von Interesse wird an den abgetasteten Datenblöcken berechnet, um eine Verteilung der statistischen Stichprobenwerte zu erhalten, die als Stichprobenverteilung bezeichnet wird. Die Merkmale der Stichprobenverteilung sind mit denen des Populationsdatensatzes unter Verwendung der zentralen Begrenzungstheorie verwandt.

2. Predictive Analytics

Predictive Analytics nutzt Muster in historischen oder vergangenen Daten, um zukünftige Ergebnisse abzuschätzen, Trends zu identifizieren, potenzielle Risiken und Chancen aufzudecken oder das Prozessverhalten vorherzusagen. Da Vorhersageanwendungsfälle plausibler Natur sind, verwenden diese Ansätze Wahrscheinlichkeitsmodelle, um die Wahrscheinlichkeit aller möglichen Ergebnisse zu messen.

Der chatBot im Kundendienstportal des Finanzunternehmens lernt proaktiv die Absicht des Kunden oder muss auf seinen / ihren früheren Aktivitäten in seiner Webdomäne basieren. Mit dem vorhergesagten Kontext kommuniziert chatBot interaktiv mit dem Kunden, um passende Services schnell bereitzustellen und eine bessere Kundenzufriedenheit zu erzielen.

Zusätzlich zu den Extrapolationsszenarien, mit denen anhand der verfügbaren Vergangenheitsdaten vorausgesagt werden kann, was in Zukunft passieren wird, gibt es nur wenige Anwendungen, die anhand der verfügbaren Datenbeispiele vermisste Dateneinträge schätzen. Diese Annäherung von fehlenden Werten innerhalb des Bereichs gegebener Datenproben wird technisch als Interpolation bezeichnet.

Eine leistungsstarke Bildbearbeitungsanwendung unterstützt die Rekonstruktion fehlender Teile der Textur aufgrund von überlagertem Text durch Interpolation der Feature-Funktion am fehlenden Block. Die Merkmalsfunktion kann als mathematische Notation von Mustern in der Textur eines verzerrten Bildes interpretiert werden.

Die wesentlichen Faktoren, die die Wahl der Vorhersagemodelle / -strategien beeinflussen, sind:

  • Vorhersagegenauigkeit: Dies vermittelt den Grad der Nähe zwischen einem vorhergesagten Wert und einem tatsächlichen Wert. Eine geringere Varianz der Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Wert impliziert eine höhere Genauigkeit des Vorhersagemodells.
  • Geschwindigkeit der Vorhersagen: In Echtzeit-Tracking-Anwendungen wird eine hohe Priorität eingeräumt
  • Modelllernrate : Dies hängt von der Komplexität des Modells und den Berechnungen ab, die für die Berechnung der Modellparameter erforderlich sind.

3. Prescriptive Analytics

Prescriptive Analytics verwendet Wissen, das als Teil der deskriptiven und prädiktiven Analyse entdeckt wurde, um eine kontextsensitive Vorgehensweise zu empfehlen. Fortgeschrittene statistische Techniken und rechenintensive Optimierungsmethoden werden implementiert, um die Verteilung geschätzter Vorhersagen zu verstehen.

Unter genauen Bedingungen werden die Auswirkungen und der Nutzen jedes Ergebnisses, die während der Vorhersageanalyse geschätzt werden, ausgewertet, um heuristische und zeitkritische Entscheidungen für einen bestimmten Satz von Bedingungen zu treffen.

Ein Börsenberatungsunternehmen führt eine SWOT-Analyse (Strength, Weakness, Opportunities and Threat) zu den prognostizierten Kursen für Aktien im Anlegerportfolio durch und empfiehlt seinen Kunden die besten Buy-Sell-Optionen.

Ablauf in der Datenanalyse

Der Prozess der Datenanalyse umfasst verschiedene Phasen der Datenverarbeitung, die nachfolgend erläutert werden:

1. Datenextraktion

Die Datenaufnahme aus mehreren Datenquellen verschiedener Typen, einschließlich Webseiten, Datenbanken und Legacy-Anwendungen, führt zu Eingabedatensätzen verschiedener Formate. Die in den Datenanalysefluss eingegebenen Datenformate können grob als klassifiziert werden

  • Strukturierte Daten haben eine klare Definition von Datentypen zusammen mit zugehörigen Feldlängen oder Feldbegrenzern. Diese Art von Daten kann einfach wie der in der relationalen Datenbank (RDBMS) gespeicherte Inhalt abgefragt werden.
  • Bei halbstrukturierten Daten fehlt eine genaue Layoutdefinition, aber Datenelemente können basierend auf einem Standardschema oder anderen Metadatenregeln identifiziert, getrennt und gruppiert werden. Eine XML-Datei verwendet Tagging, um Daten zu speichern, wohingegen eine Javascript-Objekt-Notationsdatei (JSON) Daten in Name-Wert-Paaren enthält. NoSQL-Datenbanken (nicht nur SQL) wie MongoDB, sondern auch die Couch Base werden zum Speichern von halbstrukturierten Daten verwendet.
  • Zu den unstrukturierten Daten zählen Social Media-Konversationen, Bilder, Audioclips usw. Herkömmliche Methoden zum Parsen von Daten verstehen diese Daten nicht. Unstrukturierte Daten werden in Datenseen gespeichert.

Die Implementierung der Datenanalyse für strukturierte und semi-strukturierte Daten ist in verschiedenen ETL-Tools wie Ab Initio, Informatica, Datastage und Open Source-Alternativen wie Talend enthalten.

2. Datenbereinigung und -transformation

Die Bereinigung der analysierten Daten erfolgt, um die Datenkonsistenz und Verfügbarkeit relevanter Daten für die späteren Phasen eines Prozessablaufs sicherzustellen. Die wichtigsten Bereinigungsvorgänge in der Datenanalyse sind:

  • Erkennung und Beseitigung von Ausreißern in den Datenmengen
  • Duplikate im Datensatz entfernen
  • Umgang mit fehlenden Einträgen in Datensätzen mit dem Verständnis von Funktionalität oder Anwendungsfällen
  • Validierungen für zulässige Feldwerte in Datensätzen wie „31. Februar“ dürfen in keinem Datumsfeld gültig sein.

Bereinigte Daten werden in ein geeignetes Format zur Datenanalyse umgewandelt. Datenumwandlungen umfassen

  • Ein Filter unerwünschter Datensätze.
  • Verknüpfen der aus verschiedenen Quellen abgerufenen Daten.
  • Aggregation oder Gruppierung von Daten
  • Datentypisierung

3. KPI / Insight-Ableitung

Mithilfe von Data Mining- und Deep Learning-Methoden können Key Performance Indicators (KPI) ausgewertet oder wertvolle Erkenntnisse aus den bereinigten und transformierten Daten gewonnen werden. Basierend auf dem Ziel der Analytik wird die Datenanalyse unter Verwendung verschiedener Mustererkennungstechniken wie k-Means-Clustering, SVM-Klassifikation, Bayes'schen Klassifikatoren usw. und maschinellen Lernmodellen wie Markov-Modellen, Gauß'schen Mischungsmodellen (GMM) usw. durchgeführt.

Probabilistische Modelle lernen in der Trainingsphase die optimalen Modellparameter und in der Validierungsphase wird das Modell mit einem k-fachen Kreuzvalidierungstest getestet, um Über- und Unteranpassungsfehler zu vermeiden.

Am häufigsten verwendete Programmiersprache für die Datenanalyse sind R und Python. Beide haben eine Vielzahl von Bibliotheken (SciPy, NumPy, Pandas), die für die Durchführung komplexer Datenanalysen Open-Source-fähig sind.

4. Datenvisualisierung

Datenvisualisierung ist der Prozess der klaren und effektiven Darstellung von nicht abgedeckten Mustern und der daraus abgeleiteten Schlussfolgerungen mithilfe von Diagrammen, Plots, Dashboards und Grafiken.

  • Datenberichtstools wie QlikView, Tableau usw. zeigen KPI und andere abgeleitete Metriken auf verschiedenen Granularitätsstufen an.
  • Mithilfe von Berichtstools können Endbenutzer benutzerdefinierte Berichte mit Pivot- und Drilldown-Optionen mithilfe benutzerfreundlicher Drag & Drop-Oberflächen erstellen
  • Interaktive Datenvisualisierungsbibliotheken wie D3.js (datengesteuerte Dokumente), HTML5-Anycharts usw. werden verwendet, um die Fähigkeit zu verbessern, analysierte Daten zu untersuchen

Empfohlene Artikel

Dies war ein Leitfaden für Was ist Data Analytics. Hier haben wir die verschiedenen Arten der Datenanalyse mit dem Prozessablauf besprochen. Sie können auch andere vorgeschlagene Artikel durchgehen, um mehr zu erfahren -

  1. Fragen und Antworten zu Data Analyst-Vorstellungsgesprächen
  2. Was ist Datenvisualisierung?
  3. Was ist Big Data Analytics?
  4. Was ist Minitab?