Logistische Regression
Was ist logistische Regression?
Logistische Regression ist eine statistische Analysemethode zur Vorhersage eines binären Ergebnisses, zum Beispiel ja oder nein, auf der Grundlage früherer Beobachtungen eines Datensatzes.
Ein logistisches Regressionsmodell sagt eine abhängige Datenvariable voraus, indem es die Beziehung zwischen einer oder mehreren vorhandenen unabhängigen Variablen analysiert. Eine logistische Regression kann beispielsweise dazu verwendet werden, vorherzusagen, ob der Kandidat einer Partei eine Wahl gewinnt oder verliert oder ob ein Schüler an einer bestimmten Hochschule zugelassen wird oder nicht. Diese binären Ergebnisse ermöglichen eine einfache Entscheidung zwischen zwei Alternativen.
Die logistische Regression hat sich zu einem wichtigen Werkzeug im Bereich des maschinellen Lernens entwickelt. Sie ermöglicht es Algorithmen, die in Anwendungen für maschinelles Lernen verwendet werden, eingehende Daten auf der Grundlage historischer Daten zu klassifizieren. Je mehr relevante Daten hinzukommen, desto besser werden die Algorithmen bei der Vorhersage von Klassifizierungen innerhalb von Datensätzen.
Die logistische Regression kann auch bei der Datenaufbereitung eine Rolle spielen, indem sie es ermöglicht, Datensätze während des ETL-Prozesses (Extrahieren, Transformieren, Laden) in spezifisch vordefinierte Bereiche einzuordnen, um die Informationen für die Analyse vorzubereiten.
Logistik versus logistische Regression
Die Etymologie der logistischen Regression ist ein wenig verwirrend. Sie ist nicht mit der Logistik verbunden, die sich separat aus einem französischen Wort entwickelt hat, um ein Verfahren zur Optimierung komplexer Lieferkettenberechnungen zu beschreiben. Im Gegensatz dazu bezeichnet logistisch eine mathematische Technik zur Unterteilung von Phänomenen in zwei Kategorien.
Francis Galton prägte 1889 den Begriff Regression, um ein biologisches Phänomen zu beschreiben, bei dem sich die Nachkommen großer Menschen auf die Durchschnittsgröße der Bevölkerung zurückentwickeln. Spätere Forscher übernahmen den Begriff, um ein Verfahren zur Darstellung der Auswirkungen unabhängiger Variablen auf die Wahrscheinlichkeit zu beschreiben. Die Regression ist ein Eckpfeiler der modernen prädiktiven Analyseanwendungen.
"Predictive Analytics-Tools lassen sich im Großen und Ganzen in traditionelle regressionsbasierte Tools und in Tools, die auf maschinellem Lernen basieren, einteilen“, sagt Donncha Carroll, Partner im Bereich Umsatzwachstum bei Axiom Consulting Partners.
Regressionsmodelle stellen im Wesentlichen eine mathematische Gleichung dar, welche die Wechselwirkungen zwischen den verschiedenen modellierten Variablen annähert. Modelle für maschinelles Lernen verwenden und trainieren eine Kombination aus Eingabe- und Ausgabedaten und verwenden neue Daten, um die Ausgabe vorherzusagen.
Was ist der Zweck der logistischen Regression?
Die logistische Regression vereinfacht die Mathematik zur Messung der Auswirkungen mehrerer Variablen (zum Beispiel Alter, Geschlecht, Anzeigenplatzierung) auf ein bestimmtes Ergebnis (zum Beispiel Click-Through oder Ignorieren). Die sich daraus ergebenden Modelle können dazu beitragen, die relative Wirksamkeit verschiedener Maßnahmen für unterschiedliche Personenkategorien, wie zum Beispiel jung/alt oder männlich/weiblich, zu ermitteln.
Logistische Modelle können auch Rohdatenströme umwandeln, um Merkmale für andere Arten von KI und Machine-Learning-Techniken zu erstellen. In der Tat ist die logistische Regression einer der am häufigsten verwendeten Algorithmen beim maschinellen Lernen für binäre Klassifizierungsprobleme, das heißt Probleme mit zwei Klassenwerten, einschließlich Vorhersagen wie „dies oder das“, „ja oder nein“ und „A oder B“.
Die logistische Regression kann auch die Wahrscheinlichkeiten von Ereignissen schätzen, einschließlich der Bestimmung einer Beziehung zwischen Merkmalen und den Wahrscheinlichkeiten von Ergebnissen. Das heißt, sie kann für die Klassifizierung verwendet werden, indem ein Modell erstellt wird, das die Anzahl der Unterrichtsstunden mit der Wahrscheinlichkeit korreliert, dass der Student die Prüfung besteht oder nicht besteht. Umgekehrt kann dasselbe Modell zur Vorhersage verwendet werden, ob ein bestimmter Student die Prüfung besteht oder nicht, wenn die Anzahl der Unterrichtsstunden als Merkmal angegeben wird und die Variable für die Antwort zwei Werte hat: bestanden oder nicht bestanden.
Anwendungen der logistischen Regression
Unternehmen nutzen die Erkenntnisse aus den Ergebnissen der logistischen Regression, um ihre Geschäftsstrategie zu verbessern und Geschäftsziele zu erreichen, wie zum Beispiel die Reduzierung von Ausgaben oder Verlusten und die Steigerung des ROI bei Marketingkampagnen.
Ein E-Commerce-Unternehmen, das teure Werbeangebote an Kunden verschickt, möchte beispielsweise wissen, ob ein bestimmter Kunde wahrscheinlich auf die Angebote reagieren wird oder nicht: das heißt ob dieser Verbraucher ein Responder oder ein Non-Responder sein wird. Im Marketing nennt man dies die Modellierung der Reaktionsfreudigkeit.
Ebenso entwickelt ein Kreditkartenunternehmen ein Modell, mit dem es vorhersagen kann, ob ein Kunde mit seiner Kreditkarte in Verzug geraten wird, und zwar auf der Grundlage von Merkmalen wie Jahreseinkommen, monatlichen Kreditkartenzahlungen und der Anzahl der Zahlungsausfälle. Im Bankjargon wird dies als Modellierung der Ausfallwahrscheinlichkeit bezeichnet.
Warum ist logistische Regression wichtig?
Die logistische Regression ist wichtig, weil sie komplexe Wahrscheinlichkeitsberechnungen in ein einfaches arithmetisches Problem umwandelt. Zwar ist die Berechnung selbst ein wenig komplex, aber moderne statistische Anwendungen automatisieren einen Großteil dieser Routinearbeit. Dies vereinfacht die Analyse der Auswirkungen mehrerer Variablen erheblich und hilft, die Auswirkungen von Störfaktoren zu minimieren.
Infolgedessen können Statistiker den Beitrag verschiedener Faktoren zu einem bestimmten Ergebnis schnell modellieren und untersuchen.
Ein medizinischer Forscher möchte zum Beispiel wissen, wie sich ein neues Medikament auf die Behandlungsergebnisse in verschiedenen Altersgruppen auswirkt. Dies erfordert eine Menge verschachtelter Multiplikationen und Divisionen für den Vergleich der Ergebnisse von jungen und älteren Menschen, die nie eine Behandlung erhalten haben, jüngeren Menschen, die die Behandlung erhalten haben, älteren Menschen, die die Behandlung erhalten haben, und dann die gesamte Spontanheilungsrate der gesamten Gruppe. Die logistische Regression wandelt die relative Wahrscheinlichkeit jeder Untergruppe in eine logarithmische Zahl um, die als Regressionskoeffizient bezeichnet wird und die addiert oder subtrahiert werden kann, um das gewünschte Ergebnis zu erhalten.
Diese einfacheren Regressionskoeffizienten können auch andere Algorithmen für maschinelles Lernen und Data Science vereinfachen.
Was sind die wichtigsten Annahmen der logistischen Regression?
Statistiker und Datenwissenschaftler müssen bei der Verwendung der logistischen Regression einige Annahmen im Auge behalten. Zunächst einmal müssen die Variablen unabhängig voneinander sein. So können zum Beispiel Postleitzahl und Geschlecht in einem Modell verwendet werden, aber Postleitzahl und Ort funktionieren nicht.
Andere, weniger transparente Beziehungen zwischen Variablen können im Rauschen untergehen, wenn die logistische Regression als Ausgangspunkt für komplexe maschinelle Lern- und Data-Science-Anwendungen verwendet wird. So können Datenwissenschaftler beispielsweise erhebliche Anstrengungen unternehmen, um sicherzustellen, dass Variablen, die mit Diskriminierung in Verbindung gebracht werden, wie zum Beispiel Geschlecht, nicht in den Algorithmus aufgenommen werden. Diese können jedoch manchmal indirekt über Variablen in den Algorithmus einfließen, von denen man nicht dachte, dass sie korrelieren, wie Postleitzahl, Schule oder Hobbys.
Eine weitere Annahme ist, dass die Rohdaten nicht wiederholte oder unabhängige Phänomene darstellen sollen. Eine Umfrage zur Kundenzufriedenheit zum Beispiel soll die Meinungen einzelner Personen wiedergeben. Die Ergebnisse können jedoch verzerrt sein, wenn jemand die Umfrage mehrmals von verschiedenen E-Mail-Adressen aus gemacht hat, um sich für einen Preis zu qualifizieren.
Es ist auch wichtig, dass die Beziehung zwischen den Variablen und dem Ergebnis über logarithmische Quoten in einen linearen Zusammenhang gebracht werden kann, was etwas flexibler ist als eine lineare Beziehung.
Die logistische Regression erfordert außerdem eine signifikante Stichprobengröße. Diese kann so klein wie zehn Beispiele für jede Variable in einem Modell sein. Diese Anforderung steigt jedoch in dem Maße, wie die Wahrscheinlichkeit der einzelnen Ergebnisse sinkt.
Eine weitere Annahme bei der logistischen Regression ist, dass jede Variable durch binäre Kategorien wie männlich/weiblich, klicken/nicht klicken dargestellt werden kann. Um Kategorien mit mehr als zwei Klassen darzustellen, ist ein besonderer Trick erforderlich. Sie können zum Beispiel eine Kategorie mit drei Altersklassen in drei separate Variablen umwandeln, wobei jede angibt, ob eine Person in dieser Altersklasse ist oder nicht.
Anwendungsfälle der logistischen Regression
Die logistische Regression ist vor allem in der Online-Werbung beliebt. Sie ermöglicht es Vermarktern, die Wahrscheinlichkeit vorherzusagen, mit der bestimmte Website-Benutzer auf eine bestimmte Werbung klicken werden, und zwar als Prozentsatz von Ja oder Nein.
Die logistische Regression kann auch in den folgenden Bereichen eingesetzt werden:
- im Gesundheitswesen, um Risikofaktoren für Krankheiten zu ermitteln und Präventivmaßnahmen zu planen;
- in der Arzneimittelforschung, um die Wirksamkeit von Medikamenten in Bezug auf Alter, Geschlecht und ethnische Zugehörigkeit zu untersuchen;
- in Wettervorhersage-Apps, um Schneefall und Wetterbedingungen vorherzusagen;
- in politischen Umfragen, um festzustellen, ob Wähler für einen bestimmten Kandidaten stimmen werden;
- in der Versicherungsbranche zur Vorhersage der Wahrscheinlichkeit, dass ein Versicherungsnehmer vor Ablauf der Vertragslaufzeit stirbt, basierend auf bestimmten Kriterien wie Geschlecht, Alter und körperlicher Untersuchung; und
- im Bankwesen zur Vorhersage der Wahrscheinlichkeit, dass ein Kreditantragsteller einen Kredit nicht zurückzahlen wird, auf der Grundlage des Jahreseinkommens, früherer Zahlungsausfälle und früherer Schulden.
Vor- und Nachteile der logistischen Regression
Der Hauptvorteil der logistischen Regression ist, dass sie viel einfacher einzurichten und zu trainieren ist als andere Anwendungen für maschinelles Lernen und KI.
Ein weiterer Vorteil ist, dass es sich um einen der effizientesten Algorithmen handelt, wenn die verschiedenen Ergebnisse oder Unterscheidungen, die durch die Daten dargestellt werden, linear trennbar sind. Das bedeutet, dass Sie eine gerade Linie ziehen können, die die Ergebnisse einer logistischen Regressionsberechnung trennt.
Einer der größten Reize der logistischen Regression für Statistiker ist, dass sie dazu beitragen kann, die Zusammenhänge zwischen verschiedenen Variablen und deren Auswirkungen auf die Ergebnisse aufzudecken. Auf diese Weise lässt sich schnell feststellen, ob zwei Variablen positiv oder negativ korrelieren, wie zum Beispiel die oben zitierte Feststellung, dass ein höheres Lernpensum tendenziell mit besseren Testergebnissen korreliert ist. Es ist jedoch wichtig zu beachten, dass andere Techniken wie die kausale KI erforderlich sind, um den Sprung von der Korrelation zur Kausalität zu schaffen.
Werkzeuge der logistischen Regression
Vor dem Aufkommen moderner Computer waren logistische Regressionsberechnungen eine mühsame und zeitaufwendige Aufgabe. Moderne statistische Analysetools wie SPSS und SAS enthalten jetzt logistische Regressionsfunktionen als wesentliche Funktion.
Auch die auf R und Python aufbauenden Data-Science-Programmiersprachen und -Frameworks bieten zahlreiche Möglichkeiten zur Durchführung logistischer Regression und zur Einbindung der Ergebnisse in andere Algorithmen. Es gibt auch verschiedene Tools und Techniken für die Durchführung logistischer Regressionsanalysen in Excel.
Manager sollten auch andere Tools zur Datenaufbereitung und -verwaltung in Betracht ziehen, um die Demokratisierung der Datenwissenschaft voranzutreiben. Zum Beispiel können Data Warehouses und Data Lakes dabei unterstützen, größere Datensätze für die Analyse zu organisieren. Datenkatalog-Tools können dabei unterstützen, Qualitäts- oder Benutzerfreundlichkeitsprobleme im Zusammenhang mit logistischen Regressionen aufzudecken. Data-Science-Plattformen können Analytikern dabei unterstützen, geeignete Leitfäden zu erstellen, um die breitere Nutzung der logistischen Regression im gesamten Unternehmen zu vereinfachen.
Logistische Regression versus lineare Regression
Der Hauptunterschied zwischen logistischer und linearer Regression besteht darin, dass die logistische Regression eine konstante Ausgabe liefert, während die lineare Regression eine kontinuierliche Ausgabe liefert.
Bei der logistischen Regression hat das Ergebnis, die abhängige Variable, nur zwei mögliche Werte. Bei der linearen Regression hingegen ist das Ergebnis kontinuierlich, das heißt es kann einen beliebigen von unendlich vielen möglichen Werten annehmen.
Die logistische Regression wird verwendet, wenn die Antwortvariable kategorisch ist, wie zum Beispiel ja/nein, wahr/falsch und bestanden/nicht bestanden. Die lineare Regression wird verwendet, wenn die Antwortvariable kontinuierlich ist, wie zum Beispiel Stunden, Größe und Gewicht.
Wenn beispielsweise Daten über die Zeit, die ein Student mit Lernen verbracht hat, und seine Prüfungsergebnisse vorliegen, können logistische Regression und lineare Regression unterschiedliche Dinge vorhersagen.
Bei logistischen Regressionsvorhersagen sind nur bestimmte Werte oder Kategorien zulässig. Daher sagt die logistische Regression voraus, ob der Student bestanden hat oder nicht. Da es sich bei der linearen Regression um kontinuierliche Vorhersagen handelt, zum Beispiel Zahlen in einem Bereich, kann sie das Testergebnis des Studenten auf einer Skala von 0 bis 100 vorhersagen.