Getty Images/iStockphoto

4 Arten von Simulationsmodellen für die Datenanalyse

Die Kombination verschiedener Simulationsmodelle mit prädiktiver Analytik ermöglicht es Unternehmen, Ereignisse vorherzusagen und datengestützte Entscheidungen zu verbessern.

Simulationsmodelle finden immer häufiger Anwendung, wenn Unternehmen sich mit prädiktiven Analysen und datengesteuerter Entscheidungsfindung befassen.

Die meisten Datenanalysetechniken haben ihren Ursprung in Glücksspielen. Sie möchten beispielsweise die Wahrscheinlichkeit bestimmen, mit drei sechsseitigen Würfeln eine 14 zu würfeln – die Grundlage für Binomial- oder Normalverteilungen – oder Ihre Chancen beim Roulette oder Poker kennen. Solche Spiele sind im Wesentlichen Simulationen, und das Ziel von Datenanalysten ist es, ein vereinfachtes Modell zu erstellen, um das Verhalten komplexer Systeme zu bestimmen.

Solche Simulationen sind inzwischen die einzige Möglichkeit, komplexe reale Probleme in der Biologie, Physik, Wirtschaft und anderen Bereichen mit vielen interagierenden Komponenten zu lösen. Datenanalytiker sollten diese vier Arten von Simulationsmodellen kennen:

  • Monte-Carlo-Simulation
  • agentenbasierte Modellierung
  • diskrete Ereignissimulation
  • dynamische Modellierung von Systemen

Diese vier Arten von Simulationsmodellen liegen zahlreichen Spielen, visuellen und akustischen Synthesetechniken, Algorithmen für maschinelles Lernen, Processing Kernels und Steuerungssystemen zugrunde. Mit Simulationen können Systeme virtuell getestet werden, bevor sich eine Organisation auf eine Entscheidung oder einen Entwurf festlegt.

Monte-Carlo-Simulation

Bei vielen Simulationen ist es schwierig festzustellen, ob die ausgewählten Variablen und die Verteilungen der Daten dieser Variablen das betreffende Modell repräsentieren. Der Name Monte Carlo stammt vom Roulette, einem Spiel, das in den Casinos von Monte Carlo berühmt wurde. Das Rouletterad hat 37 Felder mit den Zahlen 0 bis 36, davon 18 rote, 18 schwarze und ein grünes Feld. Die Spieler haben eine 48,65-prozentige Chance, ein rotes oder schwarzes Feld zu erhalten, und eine 2,7-prozentige Chance auf ein grünes Feld (die 0). Die drei Chancen stellen eine Verteilung dar.

Jeder einzelne Dreh ergibt einen Zufallswert. Wiederholen Sie den gleichen Vorgang 1.000-mal oder häufiger, und die Verteilung der Ergebnisse sollte diesen Prozentsätzen entsprechen. Wenn dies nicht der Fall ist, können andere Variablen am Werk sein, wie zum Beispiel ein Pedal, das ein betrügerischer Spielleiter verwendet, um das Rad zu verlangsamen.

Eines der ältesten bekannten Beispiele für die Monte-Carlo-Methode ist die Berechnung des Werts von Pi. Dies kann Millionen von Datenpunkten erfordern, was die Grenzen von Monte-Carlo-Simulationen aufzeigt: Sie sind in der Regel nicht sehr effizient.

Diese Art der Simulation wird häufig bei der Bayes'schen Analyse verwendet, die sich auf vorherige Erkenntnisse stützt, um die Wahrscheinlichkeit des Eintretens eines Ereignisses zu bestimmen. Politische Analysten verwenden häufig diese Technik, bei der Umfragen eine Reihe von Variablen generieren, die dann zur Erstellung eines Modells zusammengefasst werden können, wobei Monte-Carlo-Methoden zum Testen des Modells verwendet werden. Auch bei der Ensemble-Modellierung von Wetterereignissen wird Monte Carlo eingesetzt, beispielsweise um den wahrscheinlichen Verlauf eines Hurrikans zu bestimmen.

Agentenbasierte Modellierung

Jeder, der schon einmal einen Vogelschwarm beim Start beobachtet hat, weiß, dass das scheinbar zufällige anfängliche Verhalten einer synchronisierten Aktivität weicht, bei der die Vögel in einer bestimmten Formation fliegen, auch wenn kein einzelner Vogel ihre Aktivität steuert. Vögel im Flug haben einfache Regeln entwickelt, die ihnen sagen, was sie zu tun haben, je nachdem, was sie um sich herum sehen. Jeder Vogel weicht im Flug Hindernissen aus und passt seine Position in Echtzeit an die Position der Vögel um ihn herum an.

In der Systemdynamik sind diese Vögel Agenten, und die Bewegungen, die sie machen, sind emergente Verhaltensweisen. Diese Verhaltensweisen erfolgen als Reaktion auf eine diskrete Reihe von Regeln, die darauf basieren, was andere Agenten tun. Der Prozess der Identifizierung dieser Regeln wird als agentenbasierte Modellierung bezeichnet.

Drei Arten der Datenanalyse
Abbildung 1: Die drei Arten der Datenanalyse.

Agentensysteme wurden in den 1960er Jahren als eines der ersten Beispiele der Kybernetik untersucht und sind immer noch von Bedeutung. Der Verkehr auf einer typischen, stark befahrenen Autobahn lässt sich zum Beispiel nur schwer mit Computern modellieren. Stattdessen simulieren viele Modellierer jedes Auto als einen Agenten, der im Allgemeinen eine Reihe von Regeln befolgt, allerdings mit regelmäßigen Störungen, um zu sehen, wie sich die Autos insgesamt verhalten.

Agentensysteme werden auch bei IoT-Geräten und Drohnen eingesetzt. Diese Geräte sind nicht darauf angewiesen, ihre Aktivitäten über einen zentralen Prozessor zu koordinieren, der durch komplexe Verarbeitung Latenzzeiten und Engpässe verursacht. Stattdessen reagieren sie auf ihre nächstgelegenen Nachbarn. Sie melden sich nur dann bei der zentralen Steuerung, wenn sie unklare Informationen erhalten, oder versetzen sich selbst in einen sicheren Modus, wenn sie weder mit ihren Nachbarn noch mit der zentralen Steuerung interagieren können.

Dieses Interaktionsszenario ist die Kehrseite des Agentensystems. Ein Ausfall oder eine ähnliche Störung zwischen einer kleinen Anzahl von Agenten kann sich schnell ausbreiten. Dieses Phänomen hat zu großen Stromausfällen geführt, die nur schwer zu beheben sind, da die Ursache dieses Ereignisses (alles geht offline) auf ein emergentes Verhalten in autonomen Kraftwerken zurückzuführen ist. Während des Neustarts kann das Problem, das zum Stromausfall geführt hat, behoben werden, ohne dass die Ursache bekannt wird.

Agentensysteme können simuliert werden, wobei Softwareobjekte die Hardwareobjekte ersetzen. Die Zellbiologie beispielsweise eignet sich gut für die agentenbasierte Modellierung, da das Verhalten von Zellen dazu neigt, benachbarte Zellen unterschiedlichen Typs zu beeinflussen.

Diskrete Ereignissimulation

Mit den Agentensystemen verwandt ist das Konzept der zellulären Automaten, das in den 1970er Jahren von James Conway in seinem Spiel des Lebens und später von Stephen Wolfram (Mathematica) bekannt gemacht wurde. Beide Technologien bilden die Grundlage für Transformationsfilter und Kernel, die sowohl in der Bildverarbeitung als auch beim maschinellen Lernen eingesetzt werden.

Solche Systeme sind Beispiele für diskrete Ereignissimulationen. Bei diesen Simulationen ist die Zeit nicht kontinuierlich, sondern in einzelne Schritte oder Abschnitte unterteilt, wobei der Zustand des Modells bei jedem Schritt eine Funktion des Modells bei den vorherigen Schritten ist.

Bei diesen Simulationen bilden sich stabile oder quasistabile Komponenten ohne explizite Programmierung heraus.

Datenanalysten verwenden diskrete Ereignissimulationen in Bereichen, in denen die Nähe den Zustand oder den Raum eines Gitters bestimmt. Die meisten Wettermodellierungssysteme nutzen beispielsweise Voxel – dreidimensionale Zellen –, um die Ein- und Ausgänge für jede Zelle auf der Grundlage früherer Zustände zu bestimmen. Theoretisch sind die Ergebnisse umso genauer, je feiner das zur Beschreibung der Karte verwendete Netz ist. Um der Form (oder Topologie) des Netzes Rechnung zu tragen, müssen am Modell Korrekturen vorgenommen werden. Dreieckige oder sechseckige Netze sind genauer als rechteckige Netze.

Dynamische Modellierung des Systems

In einer idealen mathematischen Welt sollte es möglich sein, die Welt mit unabhängigen Funktionen zu beschreiben, das heißt sie können so behandelt werden, als ob sie linear wären. In der Realität sind die meisten Variablen, die Systeme beschreiben, miteinander gekoppelt – die Änderung des Wertes einer Variablen kann aufgrund ihrer Wechselwirkung eine andere Variable verändern. Dies sind nichtlineare Systeme, die von Differentialgleichungen abgeleitet sind.

Mit Computern können wir solche Gleichungen numerisch mit Unterstützung von Differenzialgleichungen lösen. Differenzialgleichungen nutzen die diskrete Mathematik, um spezifische Lösungen zu finden, die dann durch den Aufbau von Ensembles von Lösungen verallgemeinert werden können.

Ein gutes Beispiel für ein solches System sind Räuber-Beute-Simulationen. Im einfachsten Fall gibt es Beute, und die Zahl der Beutetiere nimmt zu, bis ihnen die Nahrung ausgeht. Dann sinkt die Population der Beutetiere auf ein Niveau, auf dem sich ihre Nahrungsversorgung erholen kann. Wenn jedoch ein Raubtier hinzukommt, werden die Dinge komplexer. Die Beute ist nun an zwei Variablen gekoppelt: an ihr Nahrungsangebot und an die Anzahl der Raubtiere, die die Beutetiere töten. Die Population aller drei Arten wird nichtlinear und in gewisser Weise unvorhersehbar, sogar chaotisch. Diese Gleichungen sind als Lyapunov-Gleichungen bekannt, die auch viele Wirtschaftsmodelle und Gleichungen für die Dynamik von Flüssigkeiten und Luftströmungen beschreiben.

Die systemdynamische Modellierung (SDM) untersucht chaotische Systeme. Sie stützt sich auf diskrete Ereignissimulationen und numerische Methoden, um das Verhalten von Komponenten innerhalb dieses Systems zu bestimmen. Neben Ljapunov-Lösungen wird SDM auch bei Teilchensimulationen mit hoher Dichte eingesetzt, zum Beispiel bei der Modellierung des Verhaltens einer Galaxie auf der Grundlage der Kräfte, die auf idealisierte Versionen von Sternen wirken. Chaotische Systeme führen zu Fraktalen, das sind gebrochene Dimensionen, die oft mit iterativen, rekursiven Strukturen und neu entstehenden Verhaltensweisen verbunden sind.

Erfahren Sie mehr über Datenanalyse