Predictive Modeling
Predictive Modeling, zu Deutsch: prädiktive Modellierung, ist ein Prozess, der Data Mining und Wahrscheinlichkeitsrechnung zur Vorhersage von Ergebnissen verwendet. Jedes Modell besteht aus einer Reihe von Prädiktoren, welche Variablen sind, die zukünftige Ergebnisse beeinflussen können.
Nachdem die Daten für die relevanten Prädiktoren gesammelt wurden, wird ein statistisches Modell gebildet. Das Modell kann eine einfache lineare Gleichung verwenden, oder es kann ein komplexes neuronales Netzwerk sein, das von einer ausgeklügelten Software abgebildet wird. Sobald zusätzliche Daten zur Verfügung stehen, wird das statistische Analysemodell validiert oder überarbeitet.
Anwendungen der prädiktiven Modellierung
Predictive Modeling wird oft mit Meteorologie und Wettervorhersage in Verbindung gebracht, hat aber viele Anwendungen in der Wirtschaft.
Eine der häufigsten Anwendungen von Predictive Modeling ist Online-Werbung und Marketing. Die Modellierer verwenden historische Daten der Websurfer und analysieren diese mit Hilfe von Algorithmen, um festzustellen, welche Produktarten die Benutzer interessieren könnten und worauf sie wahrscheinlich klicken.
Bayes'sche Spamfilter verwenden prädiktive Modellierung, um die Wahrscheinlichkeit zu ermitteln, dass es sich bei einer bestimmten Nachricht um Spam handelt. Bei der Betrugserkennung wird prädiktive Modellierung verwendet, um Ausreißer in einem Datensatz zu identifizieren, die auf betrügerische Aktivitäten hinweisen. Und im Customer Relationship Management (CRM) wird die prädiktive Modellierung eingesetzt, um Kunden, die am ehesten einen Kauf tätigen, zu erreichen. Weitere Anwendungen sind Kapazitätsplanung, Change Management, Disaster Recovery (DR), Engineering, physisches und digitales Sicherheits-Management und Stadtplanung.
Modellierungsmethoden
Obwohl es verlockend sein mag zu glauben, dass Big Data Vorhersagemodelle präziser macht, zeigen statistische Theoreme, dass ab einem bestimmten Punkt die Einspeisung von mehr Daten in ein Vorhersageanalysemodell die Genauigkeit nicht verbessert. Die Analyse repräsentativer Teile der verfügbaren Informationen - Stichproben - kann dazu beitragen, die Entwicklungszeit von Modellen zu verkürzen und ihre Bereitstellung zu beschleunigen.
Sobald Data Scientists diese Beispieldaten sammeln, müssen sie das richtige Modell auswählen. Lineare Regressionen gehören zu den einfachsten Arten von Vorhersagemodellen. Lineare Modelle nehmen im Wesentlichen zwei Variablen, die korrelieren - eine unabhängige und eine abhängige - und zeichnen eine auf der x-Achse und eine auf der y-Achse. Das Modell wendet eine Best-Fit-Linie auf die resultierenden Datenpunkte an. Data Scientists können damit das zukünftige Auftreten der abhängigen Variablen vorhersagen.
Andere komplexere Vorhersagemodelle sind Entscheidungsbäume, k-Means-Clustering und die Bayes'sche Inferenz, um nur einige mögliche Methoden zu nennen.
Der komplexeste Bereich des Predictive Modeling ist das neuronale Netz. Diese Art des Machine Learning überprüft unabhängig große Mengen von markierten Daten auf der Suche nach Korrelationen zwischen Variablen in den Daten. Sie kann selbst subtile Zusammenhänge erkennen, die erst nach der Überprüfung von Millionen von Datenpunkten entstehen.
Der Algorithmus kann anschließend Rückschlüsse auf unmarkierte Datendateien ziehen, die vom Typ her dem trainierten Datensatz ähnlich sind. Neuronale Netze bilden die Grundlage für viele der heutigen Beispiele künstlicher Intelligenz (KI), darunter Bilderkennung, intelligente Assistenten und natürliche Sprachgenerierung (NLG).
Vor- und Nachteile von prädiktiver Modellierung
Eine der am häufigsten übersehenen Herausforderungen der prädiktiven Modellierung ist die Beschaffung der richtigen Daten für die Entwicklung von Algorithmen. Schätzungen zufolge verbringen Data Scientists etwa 80 Prozent ihrer Zeit mit diesem Schritt.
Während Predictive Modeling oft primär als mathematisches Problem betrachtet wird, müssen Anwender die technischen und organisatorischen Barrieren planen, die sie daran hindern könnten, die benötigten Daten zu erhalten. Häufig sind Systeme, die nützliche Daten speichern, nicht direkt mit zentralen Data Warehouses verbunden. Auch können einige Geschäftszweige davon ausgehen, dass die von ihnen verwalteten Daten ihr Kapital sind, und teilen diese nicht frei mit den Data-Science-Teams.
Ein weiterer potenzieller Stolperstein für prädiktive Modellierung ist die Sicherstellung, dass die Projekte den tatsächlichen geschäftlichen Herausforderungen gerecht werden. Manchmal entdecken Data Scientists Zusammenhänge, die zu dieser Zeit interessant erscheinen und bauen Algorithmen auf, um die Zusammenhänge weiter zu untersuchen. Doch nur weil sie etwas finden, das statistisch signifikant ist, heißt das nicht, dass es eine Einsicht bietet, die das Unternehmen nutzen kann. Predictive-Modeling-Initiativen müssen eine solide Grundlage für die geschäftliche Relevanz haben.