Definition

Text Mining (Textanalyse)

Text Mining ist der Prozess der Erkundung und Analyse großer Mengen unstrukturierter Textdaten mit Software, die Konzepte, Muster, Themen, Schlüsselwörter und andere Attribute in den Daten identifizieren kann. Text Mining wird auch als Textanalyse bezeichnet, obwohl einige Leute zwischen den beiden Begriffen einen Unterschied machen: in dieser Sichtweise bezieht sich Textanalyse auf die Anwendung, die Text-Mining-Techniken zum Sortieren von Datensätzen verwendet.

Durch die Entwicklung von Big-Data-Plattformen und Deep-Learning-Algorithmen, mit denen riesige Mengen unstrukturierter Daten analysiert werden können, ist Text Mining für Datenwissenschaftler und andere Benutzer immer praktischer geworden.

Das Mining und die Analyse von Text unterstützt Unternehmen, potenziell wertvolle Geschäftserkenntnisse in Unternehmensdokumenten, Kunden-E-Mails, Call-Center-Protokollen, Umfragekommentaren, Beiträgen in sozialen Netzwerken, medizinischen Aufzeichnungen und anderen textbasierten Datenquellen zu finden. In zunehmendem Maße werden Text-Mining-Funktionen auch in KI-Chatbots und virtuelle Agenten integriert, die Unternehmen einsetzen, um Kunden im Rahmen ihrer Marketing-, Vertriebs- und Kundendienstaktivitäten automatisierte Antworten zu geben.

Wie Text Mining funktioniert

Text Mining ähnelt vom Wesen her dem Data Mining, allerdings mit dem Schwerpunkt auf Text anstelle von strukturierteren Datenformen. Einer der ersten Schritte im Text-Mining-Prozess besteht darin, die Daten in irgendeiner Weise zu organisieren und zu strukturieren, damit sie sowohl einer qualitativen als auch einer quantitativen Analyse unterzogen werden können.

Dazu wird in der Regel die Technologie der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) eingesetzt, die Prinzipien der Computerlinguistik anwendet, um Datensätze zu analysieren und zu interpretieren.

Zu den Vorarbeiten gehören das Kategorisieren, Clustern und Markieren von Text, das Zusammenfassen von Datensätzen, das Erstellen von Taxonomien und das Extrahieren von Informationen über Dinge wie Worthäufigkeiten und Beziehungen zwischen Dateneinheiten. Anschließend werden Analysemodelle ausgeführt, um Erkenntnisse zu gewinnen, die als Grundlage für Geschäftsstrategien und betriebliche Maßnahmen dienen können.

In der Vergangenheit basierten NLP-Algorithmen in erster Linie auf statistischen oder regelbasierten Modellen, die Hinweise darauf gaben, wonach in Datensätzen zu suchen ist. Mitte der 2010er Jahre kamen jedoch Deep-Learning-Modelle, die weniger überwacht arbeiten, als alternativer Ansatz für die Textanalyse und andere fortschrittliche Analyseanwendungen mit großen Datensätzen auf. Beim Deep Learning werden neuronale Netze verwendet, um Daten mit einer iterativen Methode zu analysieren, die flexibler und intuitiver ist als das, was herkömmliche Machine-Learning-Modelle unterstützen.

Infolgedessen sind Text Mining Tools besser in der Lage, zugrundeliegende Ähnlichkeiten und Assoziationen in Textdaten aufzudecken, selbst wenn Datenwissenschaftler zu Beginn eines Projekts nicht genau wissen, was sie wahrscheinlich finden werden. Ein unüberwachtes Modell kann beispielsweise Daten aus Textdokumenten oder E-Mails in eine Themengruppe einordnen, ohne dass ein Analytiker eine Anleitung gibt.

Anwendungen von Text Mining

Die Stimmungsanalyse (Sentiment Analysis) ist eine weit verbreitete Text-Mining-Anwendung, mit der sich die Meinung der Kunden über ein Unternehmen ermitteln lässt. Die Stimmungsanalyse, auch als Meinungsanalyse bekannt, wertet Texte aus Online-Rezensionen, sozialen Netzwerken, E-Mails, Call-Center-Interaktionen und anderen Datenquellen aus, um Gemeinsamkeiten zu erkennen, die auf positive oder negative Gefühle seitens der Kunden hindeuten. Solche Informationen können unter anderem zur Behebung von Produktproblemen, zur Verbesserung des Kundendienstes und zur Planung neuer Marketingkampagnen verwendet werden.

Weitere gängige Anwendungen für Text Mining sind das Screening von Bewerbern anhand der Formulierungen in ihren Lebensläufen, das Blockieren von Spam-E-Mails, das Klassifizieren von Website-Inhalten, das Erkennen von Versicherungsansprüchen, die möglicherweise betrügerisch sind, das Analysieren von Beschreibungen medizinischer Symptome zur Unterstützung von Diagnosen und das Untersuchen von Unternehmensdokumenten im Rahmen von E-Discovery-Prozessen. Text-Mining-Software bietet auch Funktionen zum Abrufen von Informationen, die denen von Suchmaschinen und Unternehmenssuchplattformen ähneln, aber das ist in der Regel nur ein Element von Text-Mining-Anwendungen auf höherer Ebene und keine eigenständige Anwendung.

Abbildung 1: Zentrale Schritte bei der Anwendung von Text Mining.
Abbildung 1: Zentrale Schritte bei der Anwendung von Text Mining.

Chatbots beantworten Fragen zu Produkten und erledigen grundlegende Aufgaben des Kundendienstes. Sie tun dies mit Unterstützung von NLU-Technologie (Natural Language Understanding), einer Unterkategorie von NLP, die Bots unterstützt, menschliche Sprache und geschriebenen Text zu verstehen, damit sie angemessen reagieren können.

Natürliche Sprachgenerierung (Natural Language Generation, NLG) ist eine weitere verwandte Technologie, die Dokumente, Bilder und andere Daten auswertet und dann selbständig Texte erstellt. NLG-Algorithmen werden zum Beispiel verwendet, um Beschreibungen von Stadtvierteln für Immobilienanzeigen zu verfassen und Erklärungen zu wichtigen Leistungsindikatoren, die von Business-Intelligence-Systemen (BI) verfolgt werden.

Vorteile von Text Mining

Der Einsatz von Text Mining und Analytik, um Einblicke in die Stimmung der Kunden zu gewinnen, kann Unternehmen dabei unterstützen, Produkt- und Geschäftsprobleme zu erkennen und sie zu lösen, bevor sie zu großen Problemen werden, die den Umsatz beeinträchtigen. Das Mining von Texten in Kundenrezensionen und -kommunikationen kann auch gewünschte neue Funktionen identifizieren, um das Produktangebot zu verbessern. In jedem Fall bietet die Technologie die Möglichkeit, das Kundenerlebnis insgesamt zu verbessern, was sich eventuell in höheren Umsätzen und Gewinnen niederschlagen kann.

Text Mining kann auch dazu beitragen, die Abwanderung von Kunden vorherzusagen, so dass Unternehmen im Rahmen ihrer Marketing- und Kundenbeziehungsmanagement-Programme Maßnahmen ergreifen können, um potenzielle Abwanderungen zu Konkurrenten zu verhindern. Betrugserkennung, Risikomanagement, Online-Werbung und Web-Content-Management sind weitere Funktionen, die vom Einsatz von Text Mining Tools profitieren können.

Im Gesundheitswesen kann die Technologie bei der Diagnose von Krankheiten und medizinischen Zuständen bei Patienten auf der Grundlage der von ihnen gemeldeten Symptome helfen.

Herausforderungen und Probleme beim Text Mining

Text Mining kann eine Herausforderung sein, da die Daten oft vage, inkonsistent und widersprüchlich sind. Die Analyse wird zusätzlich durch Mehrdeutigkeiten erschwert, die sich aus Unterschieden in der Syntax und Semantik ergeben, sowie durch die Verwendung von Slang, Sarkasmus, regionalen Dialekten und der Fachsprache einzelner Branchen. Daher müssen Text-Mining-Algorithmen darauf trainiert werden, solche Mehrdeutigkeiten und Unstimmigkeiten zu analysieren, wenn sie Textdaten kategorisieren, kennzeichnen und zusammenfassen.

Darüber hinaus erfordern die in vielen Text-Mining-Anwendungen verwendeten Deep-Learning-Modelle große Mengen an Trainingsdaten und Verarbeitungsleistung, was ihre Ausführung teuer macht. Ein weiteres Problem sind inhärente Verzerrungen in Datensätzen, die dazu führen, dass Deep Learning Tools fehlerhafte Ergebnisse liefern, wenn Datenwissenschaftler die Verzerrungen während des Modellentwicklungsprozesses nicht erkennen.

Es gibt eine große Auswahl an Text-Mining-Software. Dutzende von kommerziellen und Open-Source-Technologien sind verfügbar, darunter Tools von großen Softwareanbietern wie IBM, Oracle, SAS, SAP und Tibco.

Diese Definition wurde zuletzt im Januar 2023 aktualisiert

Erfahren Sie mehr über Datenanalyse