Unterschiede zwischen Text Mining und Text Analytics

Strukturierte Daten gibt es bereits seit dem frühen 20. Jahrhundert, aber was Text Mining und Textanalyse so besonders machte, ist die Nutzung der Informationen aus unstrukturierten Daten (Natural Language Processing). Sobald wir in der Lage sind, diesen unstrukturierten Text in halbstrukturierte oder strukturierte Daten umzuwandeln, wird er verfügbar sein, um alle Data Mining-Algorithmen anzuwenden, z. Statistische und maschinelle Lernalgorithmen.

Sogar Donald Trump war in der Lage, die Daten zu nutzen und in Informationen umzuwandeln, die ihm halfen, die US-Präsidentschaftswahlen zu gewinnen, und im Grunde tat er es nicht, was seine Untergebenen taten. Es gibt einen sehr guten Artikel http://fivethirtyeight.com/features/the-real-story-of-2016/, den Sie durchgehen können.

Viele Unternehmen nutzen bereits Text Mining, um wertvolle Informationen aus dem verfügbaren Text zu erhalten. Ein produktbasiertes Unternehmen kann beispielsweise anhand der Twitter- / Facebook-Daten feststellen, wie gut oder schlecht sich das Produkt mit Sentimental weltweit schlägt Analyse. Früher dauerte die Verarbeitung viel Zeit, tatsächlich Tage, um die maschinellen Lernalgorithmen zu verarbeiten oder sogar zu implementieren, aber mit der Einführung von Tools wie Hadoop, Azure, KNIME und anderen Big-Data-Verarbeitungssoftware Text Mining hat auf dem Markt eine enorme Popularität erlangt. Eines der besten Beispiele für Textanalysen mithilfe von Association Mining ist die Empfehlungs-Engine von Amazon, mit der Kunden automatisch Empfehlungen erhalten, was andere beim Kauf eines bestimmten Produkts gekauft haben.

Eine der größten Herausforderungen beim Anwenden von Text-Mining-Tools auf etwas, das nicht in einem digitalen Format / auf einem Computerlaufwerk vorliegt, ist der Herstellungsprozess. Die alten Archive und viele wichtige Dokumente, die nur auf Papier verfügbar sind, werden manchmal durch OCR (Optical Character Recognition) gelesen, die viele Fehler aufweisen, und manchmal werden Daten manuell eingegeben, was zu menschlichen Fehlern führen kann. Der Grund dafür ist, dass wir möglicherweise andere Einsichten ableiten können, die beim herkömmlichen Lesen nicht sichtbar sind.

Im Folgenden sind einige Schritte des Text-Minings aufgeführt

  • Informationsrückgewinnung
  • Datenaufbereitung und Reinigung
  • Segmentierung
  • Tokenisierung
  • Stop-Word-Nummern und Satzzeichen entfernen
  • Stemming
  • In Kleinbuchstaben konvertieren
  • POS-Tagging
  • Erstellen Sie einen Textkorpus
  • Term-Document-Matrix

Im Folgenden werden die Schritte in Text Analytics beschrieben, die nach der Erstellung der Term Document Matrix angewendet werden

  • Modellierung (Dies kann Inferenzmodelle, Vorhersagemodelle oder präskriptive Modelle umfassen)
  • Schulung und Bewertung von Modellen
  • Anwendung dieser Modelle
  • Visualisierung der Modelle

Das einzige, woran man sich immer erinnern muss, ist, dass Text Mining immer der Textanalyse vorausgeht.

Head to Head Vergleich zwischen Text Mining und Text Analytics (Infographics)

Unten finden Sie den 5 Vergleich zwischen Predictive Text Mining und Text Analytics

Hauptunterschiede zwischen Text Mining und Text Analytics

Lassen Sie uns Text Mining und Text Analytics anhand der Schritte unterscheiden, die in wenigen Anwendungen erforderlich sind, in denen sowohl Text Mining als auch Text Analytics angewendet werden:

• Klassifizierung von Dokumenten
Die Schritte, die in das Text Mining einbezogen werden, sind Tokenisierung, Stemming und Lemmatization, Entfernen von Stoppwörtern und Interpunktion und schließlich das Berechnen des Begriffs Frequenzmatrix oder Dokumentfrequenzmatrizen.

Tokenisierung - Der Vorgang des Aufteilens der gesamten Daten (Korpus) in kleinere Teile oder kleinere Wörter, in der Regel einzelne Wörter, wird als Tokenisierung bezeichnet (N-Gramm-Modell oder Wortkiste-Modell).

Stemming und Lemmatisierung - Zum Beispiel bedeuten die Wörter, groß, größer und am größten, alle dasselbe und es werden doppelte Daten gebildet, um die Daten redundant zu halten. Wir führen eine Lemmatisierung durch, indem wir Wörter mit dem Stammwort verknüpfen.
Stoppwörter entfernen - Stoppwörter werden in der Analyse nicht verwendet, da sie Wörter wie is, the und usw. enthalten.

Termhäufigkeiten - Hierbei handelt es sich um eine Matrix mit Zeilenköpfen als Dokumentnamen und Spalten als Begriffen (Wörtern). Die Daten geben die Häufigkeit der Wörter an, die in diesen bestimmten Dokumenten vorkommen. Unten ist ein Beispiel-Screenshot.

In der obigen Abbildung haben wir die Attribute in den Zeilen (Wörtern) und die Dokumentennummer als Spalten und die Worthäufigkeit als Daten.

Bei der Textanalyse müssen die folgenden Schritte berücksichtigt werden

Clustering - Mit K-means Clustering / Neuronale Netze / CART (Klassifizierungs- und Regressionsbäume) oder einem anderen Clustering-Algorithmus können wir jetzt die Dokumente basierend auf den generierten Features gruppieren (Features sind hier die Wörter).

Auswertung und Visualisierung - Wir können den Cluster in zwei Dimensionen darstellen und untersuchen, wie sich diese Cluster voneinander unterscheiden. Wenn das Modell über gute Testdaten verfügt, können wir es in der Produktion bereitstellen und es wird ein guter Dokumentenklassifikator sein, der alle neuen klassifiziert Dokumente, die als Eingabe angegeben werden und nur den Cluster benennen, in den sie fallen.

• Stimmungsanalyse

Eines der leistungsstärksten Tools auf dem Markt, das bei der Verarbeitung von Twitter- / Facebook-Daten oder anderen Daten hilft, die verwendet werden können, um daraus die Einschätzung abzuleiten, ob die Einschätzung für einen bestimmten Prozess / ein bestimmtes Produkt gut, schlecht oder neutral ist oder Person ist Stimmungsanalyse.
Die Quelle der Daten kann leicht verfügbar sein, indem Sie die Twitter-API / Facebook-API verwenden, um die Tweets / Kommentare / Likes usw. auf dem Tweet oder einem Post eines Unternehmens abzurufen. Das Hauptproblem ist, dass diese Daten schwer zu strukturieren sind. Die Daten würden auch verschiedene Werbeanzeigen enthalten, und der für das Unternehmen tätige Datenwissenschaftler muss sicherstellen, dass die Auswahl der Daten in der richtigen Weise erfolgt, sodass nur ausgewählte Tweets / Posts für die Vorverarbeitungsphasen durchlaufen werden.
Andere Tools umfassen Web-Scraping. Dies ist ein Teil von Text Mining, bei dem Sie die Daten von Websites mithilfe von Crawlern scrappen.
Der Prozess des Text-Minings bleibt derselbe wie das Tokenisieren, Stemming und Lemmatisieren, Entfernen von Stoppwörtern und Interpunktion und schließlich das Berechnen des Begriffs Frequenzmatrix oder Dokumentfrequenzmatrizen, aber der einzige Unterschied ergibt sich bei der Anwendung der Stimmungsanalyse.
Normalerweise geben wir jedem Post / Tweet eine Punktzahl. Wenn Sie ein Produkt kaufen und eine Bewertung abgeben, haben Sie in der Regel auch die Möglichkeit, der Bewertung Sterne zu geben und einen Kommentar abzugeben. Google, Amazon und andere Websites verwenden die Sterne, um den Kommentar zu bewerten. Sie nehmen nicht nur die Tweets / Posts entgegen und geben sie an die Menschen weiter, um sie als gut / schlecht / neutral zu bewerten. Durch das Kämmen dieser beiden Bewertungen generieren sie einen neuen Kommentar Punktzahl für einen bestimmten Tweet / Post.
Die Visualisierung der Stimmungsanalyse kann über eine Wortwolke, Balkendiagramme der Frequenzbegriffsmatrix erfolgen.

• Verband der Bergbauanalyse

Eine der Anwendungen, an denen einige Leute arbeiteten, war das „Probabilistische Modell für unerwünschte Arzneimittelereignisse“, bei dem überprüft werden kann, bei welchen unerwünschten Ereignissen andere unerwünschte Ereignisse auftreten können, wenn er ein bestimmtes Arzneimittel einnimmt.
Das Text-Mining umfasste den folgenden Workflow

Aus der obigen Abbildung geht hervor, dass bis zum Data-Mining alle Schritte zum Text-Mining gehören, bei dem die Datenquelle identifiziert, extrahiert und dann für die Analyse vorbereitet wird.

Wenn wir dann Association Mining anwenden, haben wir das folgende Modell
Wie wir sehen können, zeigen einige Pfeilmarkierungen in Richtung des orangefarbenen Kreises und dann zeigt ein Pfeil auf ein bestimmtes ADE (unerwünschtes Arzneimittelereignis). Wenn wir uns ein Beispiel auf der linken unteren Seite des Bildes ansehen, können wir feststellen, dass Apathie, Asthenie und ungewöhnliche Gefühle zu Schuldgefühlen führen. Man kann also sagen, dass dies offensichtlich ist, denn als Mensch kann man sie interpretieren und in Beziehung setzen, aber hier ist eine Maschine interpretiert es und gibt uns das nächste unerwünschte Arzneimittelereignis.

Ein Beispiel für das Wort Wolke ist wie folgt

Vergleichstabelle zwischen Text Mining und Text Analytics

Nachfolgend sind die Punktelisten aufgeführt, die die Vergleiche zwischen Text Mining und Text Analytics beschreiben:

Grundlage für den VergleichText MiningTextanalyse

Bedeutung

Text Mining bereinigt im Grunde genommen die Daten, die für die Textanalyse verfügbar sein sollenText Analytics wendet statistische und maschinelle Lerntechniken an, um Informationen aus den textbasierten Daten vorhersagen / vorschreiben oder ableiten zu können.

Konzept

Text Mining ist ein Tool, mit dem Sie die Daten bereinigen können.Textanalyse ist der Prozess der Anwendung der Algorithmen

Rahmen

Wenn wir über das Framework sprechen, ähnelt Text Mining ETL (Extract Transform Load), dh, um Daten in die Datenbank einfügen zu können, werden diese Schritte ausgeführtIn-Text-Analyse Diese Daten werden verwendet, um dem Unternehmen Werte hinzuzufügen, z. B. das Erstellen von Wortwolken, Bi-Gramm-Frequenzdiagrammen und in einigen Fällen N-Gramm

Sprache

Python und R sind die bekanntesten Text-Mining-Tools für das Text-MiningFür die Textanalyse können wir, sobald die Daten auf Datenbankebene verfügbar sind, eine beliebige Analysesoftware verwenden, einschließlich Python und R. Andere Software umfasst Power BI, Azure, KNIME usw.

Beispiele

  • Textkategorisierung
  • Text-Clustering
  • Konzept- / Entitätsextraktion
  • Stimmungsanalyse
  • Dokumentenzusammenfassung
  • Erstellung granularer Taxonomien
  • Modellierung von Entitätsbeziehungen
  • Assoziationsanalyse
  • Visualisierung
  • Predictive Analytics
  • Informationsrückgewinnung
  • lexikalische Analyse
  • Mustererkennung
  • Tagging / Annotation

Fazit - Text Mining vs. Text Analytics

Die Zukunft des Text Mining und der Textanalyse gilt nicht nur für Englisch, sondern es wurden auch kontinuierliche Fortschritte erzielt und sprachliche Tools verwendet. Nicht nur Englisch, sondern auch andere Sprachen werden für die Analyse ebenfalls berücksichtigt.

Umfang und Zukunft von Text Mining werden zunehmen, da nur begrenzte Ressourcen für die Analyse anderer Sprachen zur Verfügung stehen.

Text Analytics bietet ein sehr breites Anwendungsspektrum. Einige Beispiele für die Branchen, in denen dies verwendet werden kann, sind:

  • Social Media Überwachung
  • Pharma / Biotech-Anwendungen
  • Geschäfts- und Marketinganwendungen

Empfohlener Artikel

Dies war ein Leitfaden für den Unterschied zwischen Text Mining und Text Analytics, deren Bedeutung, Kopf-an-Kopf-Vergleich, Hauptunterschiede, Vergleichstabelle und Schlussfolgerung. Sie können sich auch die folgenden Artikel ansehen, um mehr zu erfahren -

  1. Azure Paas vs Iaas - Finde die Unterschiede heraus
  2. Die besten 3 Dinge, die Sie über Data Mining vs Text Mining lernen sollten
  3. Kennen Sie die besten 7 Unterschiede zwischen Data Mining und Datenanalyse
  4. Business Intelligence vs. maschinelles Lernen - welches ist besser?
  5. Predictive Analytics vs Data Mining - Welche ist nützlicher

Kategorie: