pinglabel - stock.adobe.com

Data versus Text Mining: Wertvolle Daten erfolgreich bergen

Data Mining und Text Mining sind gute Verfahren, um Daten aus verschiedenen Quellen zu bergen und diese effizient auf Trends sowie Muster zu untersuchen.

Die Welt ist wieder in Goldgräberstimmung. Nur anstatt wie einst in Goldminen zu schürfen, gilt es heute aus den jeweiligen Datenbergen seines Unternehmens die passenden Informationen und Erkenntnisse zu bergen, um Kunden und Prozesse besser zu verstehen.  

Die Erhebungsgeschwindigkeit steigt in vielen Branchen rasant an. Gleichzeit erschweren die Vielzahl der Textformate, Speichermöglichkeiten und Ablageorte die Identifikation wichtiger Daten. So schätzt zum Beispiel das Marktforschungsunternehmen Gartner, dass es bis 2021 80 Prozent der Unternehmen nicht gelingen wird, Regelungen für einen sicheren und produktiven Umgang mit dieser wachsenden Datenmenge zu etablieren.

Unternehmen wissen, dass Sie Werte in ihren Daten haben – diese jedoch nachhaltig zu heben, erfordert die richtige Technologie.

Data Mining und Text Mining sind gute und gängige Verfahren, um firmeninterne Daten aus verschiedenen Quellen zu bergen und diese schnell und effizient auf Trends, Muster und neue Querverbindungen zu untersuchen. Es handelt sich bei beiden Methoden nicht um eine einzelne Technologie, stattdessen wird eine Bandbreite an Werkzeugen zur Analyse der Daten genutzt.

Data Mining und Text Mining sind als sich ergänzende Prozesse anzusehen, sie unterscheiden sich jedoch in der Art der Daten, die letztendlich analysiert werden. Data Mining arbeitet dabei in der Regel mit strukturierten und damit hochformatierten Daten aus Datenbanken oder ERP-Systemen. Text Mining jedoch befasst sich mit den unstrukturierten Textdaten und -formaten, die aus unterschiedlichen Quellen generiert werden. Diese stammen teilweise vom Endkunden und können deshalb nicht unbedingt standardisierte Formate vorweisen.

In den folgenden Abschnitten geht es um die wichtigsten Kernbegriffe im Kontext der Verarbeitung der jeweiligen Daten.

Data Mining

Data Mining kombiniert Disziplinen wie Statistik, künstliche Intelligenz und Machine Learning, die direkt auf die strukturierten Daten angewendet werden. Dazu zählen beispielsweise:

Clusteranalyse: Im Rahmen einer Clusteranalyse wird eine große Datenmenge in kleinere homogene Gruppen oder Cluster unterteilt. Alle Mitglieder eines Clusters besitzen dabei gleiche oder ähnliche Eigenschaften. Zwischen den Gruppen sollten sich diese folglich deutlich unterscheiden. Alle weiteren Analysen werden anschließend nur in den inhaltlich bedeutenden Clustern weitergeführt. Ein Beispiel hierfür ist die Marktsegmentierung.

Klassifikation: Sie zeigt verwendete Muster, um vorherzusagen, in welche Klasse die Daten wahrscheinlich fallen. So kann unter anderem bei der Wettervorhersage ermittelt werden, ob es sonnig oder bewölkt werden wird.

Assoziationsregeln: Diese werden aufgestellt, um Zusammenhänge zu verdeutlichen, man nennt sie auch Abhängigkeitsregeln. Sie legen fest, wie wahrscheinlich es ist, dass ein Ereignis, das in Relation zu einem anderen steht, eintritt. So erfährt beispielsweise eine Supermarktkette, wie wahrscheinlich es ist, dass eine Kunde, der Müsli kauft, auch nach einer Tüte Milch greift. Auf diese Weise können Kundenprofile erstellt und Werbung dementsprechend gezielt platziert werden.

Regression: Sie sagt einen numerischen Wert in Abhängigkeit der Variablen eines gegebenen Datensatzes voraus, wie zum Beispiel den Kaufpreis eines Gebrauchtwagens aufgrund seines Kilometerstands und anderer Faktoren.

Analyse- und Business-Intelligence-Plattformen sind in der Lage, Informationen schnell aus großen strukturierten Datensätzen zu ziehen und abzurufen. Sie wenden die erwähnten Data-Mining-Funktionen an, um deskriptive, prädiktive und präskriptive Analysen zu ermöglichen.

Data Mining kommt bereits in vielen Bereichen zum Einsatz und bietet ein enormes Anwendungspotential für die Zukunft – im Marketing, im Finanz- und Versicherungswesen, in der Medizin oder im Onlinehandel. Im Customer Relationship Management (CRM) beispielsweise können mit Hilfe von Data Mining Kunden in Kundengruppen zusammengefasst werden. Kunden aus dem gleichen Segment werden dann über Werbe-Mailings oder ähnliche Maßnahmen die für sie am besten geeigneten Produkte angeboten. Auf diese Weise lässt sich die Beziehung des Unternehmens zu seinen Kunden nachhaltig und datenbasiert stärken.

Auch im Bereich Life Sciences hat die Datenanalyse eine besonders große Bedeutung, da sie sich positiv auf die Entwicklung von Medikamenten auswirkt. Da sich große Mengen an Daten schnell und mit modernen Analysenmethoden auswerten lassen, können Forscher oder Data Scientists neue Informationen für Ihre Entwicklungsprozesse ableiten. Wissenschaftler bekommen etwa Einblicke in die Entstehung von Krankheiten oder können herausfinden, wieso manche Medikamente nur bei bestimmten Personen wirken. Wer in der Lage ist, mehr Daten schneller zu verarbeiten, kann dadurch die Entwicklung und den Test von Medikamenten oder Produkten nachhaltige verbessern. Je nach Branche lassen sich auch komplexe Kausalzusammenhänge oder Anwendungsfälle schneller erschließen.

Text Mining

Text Mining, ist die Erfassung von unstrukturierten Daten, die zuerst organisiert und strukturiert werden müssen, bevor die eigentlichen Datenmodellierungs- oder Mustererkennungswerkzeuge zum Einsatz kommen.

Text Mining kann Unternehmen helfen, wertvolle Geschäftsinformationen aus eben jenen textbasierten, unstrukturierten Quellen wie Word-Dokumenten, E-Mails, Videos oder Social-Media-Feeds zu gewinnen. Die Auswertung dieser Informationen ist in der Regel eine große Herausforderung, vor allem da der Text in natürlicher Sprache oftmals inkonsistent ist. Er kann Mehrdeutigkeiten durch Ungenauigkeiten in Syntax und Semantik enthalten, umgangssprachliche Begriffe oder Fachausdrücke bestimmter Branchen, Doppeldeutigkeiten oder eine sarkastische Note.

Das erfordert ausgefeilte statistische und linguistische Techniken, um die breite Palette der unstrukturierten Datenformate zu analysieren und jedes Dokument mit Metadaten wie Autor, Datum oder einer Inhaltszusammenfassung zu versehen. Dieser Prozess kann unterstütz werden durch Natural Language Processing (NLP) und Knowledge Engineering. So kann das jeweilige System die Inhalte der vorliegenden Sprache mit künstlicher Intelligenz in einen verständlicheren Kontext setzen.

Die Metadaten sind bei der Strukturierung der Daten als das Schlüsselelement anzusehen. Die richtigen Meta-Tags müssen für die jeweiligen Daten definiert und zugeordnet werden. Sobald dies vorhanden ist, steht einer weiteren Analyseverarbeitung wenig im Weg. Mit Hilfe von NLP-unterstützten Prozessen können diese Werte dann verarbeitet werden. Auf diese Weise erhalten Unternehmen Einblick in inhaltsspezifische Besonderheiten wie Stimmungen, Emotionen, Intensität und Relevanz.

Text Mining ist in der Arbeitswelt dort zu finden, wo Texte in Form von Belegen, Lieferscheinen, Rechnungen, E-Mails oder Verträgen eine zentrale Rolle spielen. Die darin enthaltenen Informationen können in einem Umfang ausgewertet werden, der allein mit herkömmlichen Mitteln nicht zu bewerkstelligen wäre. So können unter anderem im Rahmen einer Inventur Belege maschinell auf ihre Richtigkeit und Konsistenz hin überprüft werden. Ein weiteres wichtiges Stichwort ist außerdem das Internet der Dinge. Hier werden zum Beispiel bei vernetzten Geräten Automatisierungsoptionen oder Handlungsempfehlungen auf den Displays angezeigt.

Harry Underwood, OpenText

„Data Mining und Text Mining sind als sich ergänzende Prozesse anzusehen, sie unterscheiden sich jedoch in der Art der Daten, die letztendlich analysiert werden.“

Harry Underwood, OpenText

In den meisten Unternehmen war Data Mining bis vor kurzem der dominierende Ansatz, da diese so eine stärkere Kontrolle über ihre strukturierten Daten erhalten konnten. Durch die Generierung von Daten in Echtzeit, die Einbindung von Inhalten aus Kunden-Feedback oder den Geschäftsprozessen gewinnt Text Mining jedoch immer mehr an Bedeutung. Unternehmen wollen ihre Prozesse und Kunden immer besser verstehen – das macht eine Mischung aus Datenquellen und -typen notwendig.

Die neue Big-Data-Welt bedeutet für die meisten Unternehmen, strukturierte und unstrukturierte Daten zu kombinieren, um eine höhere Transparenz und einen genaueren Einblick in ihr Unternehmen und ihre Prozesse zu erzielen. Wenn die Verantwortlichen dabei zukünftig auf die richtigen Lösungen setzen und die Anforderungen an die Daten und Einsatzbereiche berücksichtigen, ist das auch technologisch umsetzbar.

Über den Autor:
Harry Underwood ist Senior Solution Consultant für AI bei OpenText.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder und entsprechen nicht unbedingt denen von ComputerWeekly.de.

Nächste Schritte

Facebook-Datenskandal macht ethisches Data Mining notwendig.

Kostenloser E-Guide: Big Data Analytics mit Data Mining.

Wie KI, IoT und Big Data zu neuen Erkenntnissen per Data Mining führen.

Erfahren Sie mehr über Datenanalyse