Logistische Regression
Ein Regressionsmodell für eine kategoriale, in der Regel binäre, abhängige Variable. Anstatt das Ergebnis direkt zu modellieren, wird die Wahrscheinlichkeit des Ergebnisses mithilfe der logistischen (sigmoiden) Funktion modelliert. Das Modell sagt die Log-Wahrscheinlichkeit des Ereignisses als lineare Kombination der unabhängigen Variablen voraus: [latex]\ln(\frac{p}{1-p}) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p[/latex], wobei p die Wahrscheinlichkeit des Ereignisses ist.
Die logistische Regression ist ein grundlegender Algorithmus für binäre Klassifizierungsprobleme. Sie ist eine Art verallgemeinertes lineares Modell (GLM), das die Konzepte der linearen Regression auf Fälle erweitert, in denen die Zielvariable nicht stetig ist. Die direkte Anwendung der linearen Regression auf ein binäres (0/1) Ergebnis ist problematisch, da sie zu vorhergesagten Wahrscheinlichkeiten außerhalb des logischen Bereichs [0, 1] führen und die Annahme der konstanten Fehlervarianz der OLS-Regression verletzen kann.
Die logistische Regression löst dieses Problem, indem sie eine Linkfunktion zur Transformation des Ergebnisses verwendet. Sie modelliert den Logarithmus der Chancen, oder „logit“, als lineare Funktion der Prädiktoren. Die Chancen sind das Verhältnis der Erfolgswahrscheinlichkeit (p) zur Misserfolgswahrscheinlichkeit (1-p). Diese Transformation, logit(p) = ln(p/(1-p)), bildet die Wahrscheinlichkeit vom Bereich [0, 1] auf die gesamte reelle Zahlengerade [-∞, +∞) ab und eignet sich daher für ein lineares Modell.
Um wieder eine Wahrscheinlichkeit zu erhalten, verwendet man die Umkehrfunktion der Logit-Funktion, die logistische oder Sigmoid-Funktion: [latex]p = frac{e^{beta_0 + beta_1 x_1 + dots}}{1 + e^{beta_0 + beta_1 x_1 + dots}}[/latex]. Anders als bei der linearen Regression werden die Parameter ([latex]beta[/latex]) nicht mittels der Methode der kleinsten Quadrate geschätzt. Stattdessen werden sie typischerweise mithilfe der Maximum-Likelihood-Schätzung (MLE) ermittelt, einem iterativen Verfahren, das die Parameterwerte findet, die die Wahrscheinlichkeit maximieren, die tatsächlichen Daten zu beobachten. Das Modell kann durch multinomiale logistische Regression auf Mehrklassenprobleme erweitert werden.
UNESCO Nomenclature: 1209
- Statistik
Verwendung
Weitverbreitete Verwendung
Vorläufer
- Lineare Regression
- Wahrscheinlichkeitstheorie (Bernoulli-Verteilung)
- Maximum-Likelihood-Schätzung (entwickelt von RA Fisher)
- Probit-Modell (ein früheres Modell für binäre Ergebnisse)
- Das Konzept verallgemeinerter linearer Modelle
Anwendungen
- medizinische Diagnose (z. B. Vorhersage des Vorhandenseins einer Krankheit anhand der Symptome)
- Kredit-Scoring und finanzielle Risikobewertung
- Spam-Erkennung in E-Mail-Clients
- Kundenabwanderungsprognose bei Telekommunikations- und Abonnementdiensten
- Vorhersage des Wahlausgangs
Potenzielle Innovationsideen
Aufgrund des hohen Datenverkehrs durch Web-Scraping-Bots, der derzeit mehr als 40.000 Anfragen pro Tag umfasst, ist dieser Inhalt ausschließlich Community-Mitgliedern vorbehalten.
> Anmelden < oder > Registrieren < (100% kostenlos) Zugriff darauf sowie auf alle anderen eingeschränkten Inhalte und Tools.
Verwandt mit: logistische Regression, Klassifizierung, binäres Ergebnis, Sigmoidfunktion, Log-Odds, Maximum-Likelihood-Schätzung, maschinelles Lernen, prädiktive Modellierung, verallgemeinertes lineares Modell, kategoriale Daten.