Product Design, Manufacturing & Innovation Resources

Heim » Logistische Regression

Logistische Regression

1960

David Cox

(Abbildung dient nur zur Veranschaulichung)

Ein Regressionsmodell für eine kategoriale, in der Regel binäre, abhängige Variable. Anstatt das Ergebnis direkt zu modellieren, wird die Wahrscheinlichkeit des Ergebnisses mithilfe der logistischen (sigmoiden) Funktion modelliert. Das Modell sagt die Log-Wahrscheinlichkeit des Ereignisses als lineare Kombination der unabhängigen Variablen voraus: [latex]\ln(\frac{p}{1-p}) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p[/latex], wobei p die Wahrscheinlichkeit des Ereignisses ist.

Die logistische Regression ist ein grundlegender Algorithmus für binäre Klassifizierungsprobleme. Sie ist eine Art verallgemeinertes lineares Modell (GLM), das die Konzepte der linearen Regression auf Fälle erweitert, in denen die Zielvariable nicht stetig ist. Die direkte Anwendung der linearen Regression auf ein binäres (0/1) Ergebnis ist problematisch, da sie zu vorhergesagten Wahrscheinlichkeiten außerhalb des logischen Bereichs [0, 1] führen und die Annahme der konstanten Fehlervarianz der OLS-Regression verletzen kann.

Die logistische Regression löst dieses Problem, indem sie eine Linkfunktion zur Transformation des Ergebnisses verwendet. Sie modelliert den Logarithmus der Chancen, oder „logit“, als lineare Funktion der Prädiktoren. Die Chancen sind das Verhältnis der Erfolgswahrscheinlichkeit (p) zur Misserfolgswahrscheinlichkeit (1-p). Diese Transformation, logit(p) = ln(p/(1-p)), bildet die Wahrscheinlichkeit vom Bereich [0, 1] auf die gesamte reelle Zahlengerade [-∞, +∞) ab und eignet sich daher für ein lineares Modell.

Um wieder eine Wahrscheinlichkeit zu erhalten, verwendet man die Umkehrfunktion der Logit-Funktion, die logistische oder Sigmoid-Funktion: [latex]p = frac{e^{beta_0 + beta_1 x_1 + dots}}{1 + e^{beta_0 + beta_1 x_1 + dots}}[/latex]. Anders als bei der linearen Regression werden die Parameter ([latex]beta[/latex]) nicht mittels der Methode der kleinsten Quadrate geschätzt. Stattdessen werden sie typischerweise mithilfe der Maximum-Likelihood-Schätzung (MLE) ermittelt, einem iterativen Verfahren, das die Parameterwerte findet, die die Wahrscheinlichkeit maximieren, die tatsächlichen Daten zu beobachten. Das Modell kann durch multinomiale logistische Regression auf Mehrklassenprobleme erweitert werden.

Maschinelles Lernen, Qualitätssicherung, Qualitätskontrolle, Qualitätsmanagement, Statistische Analyse, Statistische Prozesskontrolle (SPC)

UNESCO Nomenclature: 1209

- Statistik

Typ

Software/Algorithmus

Störung

Wesentliche

Verwendung

Weitverbreitete Verwendung

Vorläufer

Lineare Regression
Wahrscheinlichkeitstheorie (Bernoulli-Verteilung)
Maximum-Likelihood-Schätzung (entwickelt von RA Fisher)
Probit-Modell (ein früheres Modell für binäre Ergebnisse)
Das Konzept verallgemeinerter linearer Modelle

Anwendungen

medizinische Diagnose (z. B. Vorhersage des Vorhandenseins einer Krankheit anhand der Symptome)
Kredit-Scoring und finanzielle Risikobewertung
Spam-Erkennung in E-Mail-Clients
Kundenabwanderungsprognose bei Telekommunikations- und Abonnementdiensten
Vorhersage des Wahlausgangs

Patente:

Potenzielle Innovationsideen

Aufgrund des hohen Datenverkehrs durch Web-Scraping-Bots, der derzeit mehr als 40.000 Anfragen pro Tag umfasst, ist dieser Inhalt ausschließlich Community-Mitgliedern vorbehalten.
> Anmelden < oder > Registrieren < (100% kostenlos) Zugriff darauf sowie auf alle anderen eingeschränkten Inhalte und Tools.

Verwandt mit: logistische Regression, Klassifizierung, binäres Ergebnis, Sigmoidfunktion, Log-Odds, Maximum-Likelihood-Schätzung, maschinelles Lernen, prädiktive Modellierung, verallgemeinertes lineares Modell, kategoriale Daten.

Historischer Kontext

Demonstration der Monte-Carlo-Methode zur Schätzung von Pi in der numerischen Analyse im Klassenzimmer.

Monte-Carlo-Schätzung von Pi

Ein klassisches Beispiel für die Monte-Carlo-Methode ist die Schätzung des Wertes von [latex]\pi[/latex]. Wenn man einen Kreis mit dem Radius [latex]r[/latex] in ein Quadrat mit der Seitenlänge [latex]2r[/latex] einfügt, ist das Verhältnis der Flächen [latex]\frac{\pi r^2}{(2r)^2} = \frac{\pi}{4}[/latex]. Die zufällige Streuung von Punkten innerhalb des Quadrats und die Zählung des Anteils [latex]p[/latex], der in den Kreis fällt, liefert eine Schätzung: [latex]\pi \ca. 4p[/latex].

Grace Hopper bei der Arbeit am A-0 System Compiler in einem Büro der 1950er Jahre.

Der erste Compiler: A-0 System

Das 1952 von Grace Hopper entwickelte A-0-System gilt als der erste Compiler. Es übersetzte eine Abfolge von Unterprogrammen und Argumenten, die durch eine mathematische Notation spezifiziert wurden, in Maschinencode. Dies war ein grundlegender Schritt auf dem Weg von der Assembler-Programmierung auf höherer Ebene zu abstrakteren Programmiersprachen und automatisierte den mühsamen Prozess der manuellen Codeübersetzung.

Qualitätskontrollanalytiker, der die Shewhart-Regelkarte auf nicht zufällige Muster überwacht.

Regeln von Western Electric (statistische Tests in Kontrollkarten)

A set of four decision rules for detecting non-random patterns on Shewhart control charts, indicating an out-of-control process even if no points are outside the 3-sigma limits. These rules identify unnatural runs, trends, or clustering of data points that signal the presence of a special cause of variation. They increase the sensitivity of control charts.

Logistische Regression

Arbeitsbereich für die Computerprogrammierung, in dem objektorientierte Programmierkonzepte vorgestellt werden.

Das Objekt in OOP (Programmierung)

In der objektorientierten Programmierung (OOP) ist ein Objekt eine grundlegende Einheit, die Daten (Attribute oder Eigenschaften) und die Methoden (Funktionen oder Prozeduren), die diese Daten verarbeiten, bündelt. Objekte sind Instanzen von Klassen, die als Blaupausen fungieren. Dieses Paradigma modelliert reale Entitäten und erleichtert die Verwaltung komplexer Systeme, indem verwandte Zustände und Verhaltensweisen in eigenständigen Einheiten zusammengefasst werden.

Arbeitsbereich für Computerprogrammierung zur Demonstration von Polymorphismus mit Codeschnipseln.

Polymorphismus (Programmierung)

Polymorphismus, griechisch für „viele Formen“, ermöglicht es, Objekte verschiedener Klassen als Objekte einer gemeinsamen Oberklasse zu behandeln. Er ermöglicht die Verwendung einer einzigen Schnittstelle, beispielsweise eines Methodennamens, für eine allgemeine Klasse von Aktionen. Die konkrete Aktion wird zur Laufzeit durch den genauen Typ des Objekts bestimmt. Dies wird häufig durch das Überschreiben von Methoden erreicht.

Metropolis-Hastings-Algorithmus

Der Metropolis-Hastings-Algorithmus ist ein bekanntes MCMC-Verfahren zur Gewinnung einer Folge von Zufallsstichproben aus einer Wahrscheinlichkeitsverteilung, für die direktes Sampling schwierig ist. In jeder Iteration generiert er basierend auf der aktuellen Stichprobe einen Kandidaten für die nächste Stichprobe. Dieser Kandidat wird dann mit einer bestimmten Wahrscheinlichkeit akzeptiert oder verworfen, wodurch sichergestellt wird, dass die resultierende Kette gegen die gewünschte Verteilung konvergiert.

1950

1952

1956

1960

1967

1970

1950

1953

1960

1967

1970

Interpolation der Bewegung von CNC-Maschinen für komplexe Geometrien in der angewandten Mathematik.

CNC-Bewegungsinterpolation

Interpolation ist der Rechenprozess innerhalb einer CNC-Steuerung, der eine Folge von Zwischenkoordinatenpunkten generiert, um einen glatten Pfad zwischen programmierten Endpunkten zu erstellen. Die grundlegendsten Arten sind die lineare Interpolation (G01) für Geraden und die Kreisinterpolation (G02/G03) für Bögen. Dadurch können komplexe Profile aus einfachen geometrischen Befehlen im G-Code-Programm bearbeitet werden.

Kontrollraum der Luft- und Raumfahrt mit drei parallelen Computermodulen für Fehlertoleranz.

Dreifache modulare Redundanz (TMR)

TMR (Triple Modular Redundancy) is a hardware fault-tolerance technique that uses three identical modules performing the same operation in parallel. Their outputs are fed into a majority-voting circuit. If one module fails and produces an incorrect output, the voter is still able to determine the correct output based on the other two modules, thus masking the fault and ensuring continuous operation.

Forscher, der in einem Büro für statistische Analysen Markov-Chain-Monte-Carlo-Simulationen analysiert.

Markov-Ketten-Monte-Carlo-Methode (MCMC)

Markov-Chain-Monte-Carlo-Methoden (MCMC) sind eine Klasse von Algorithmen zur Stichprobenziehung aus einer Wahrscheinlichkeitsverteilung. Es wird eine Markov-Kette konstruiert, deren Gleichgewichts- oder stationäre Verteilung die gewünschte Verteilung ist. Der Zustand der Kette nach einer großen Anzahl von Schritten dient dann als Stichprobe aus der gewünschten Verteilung und ermöglicht die Berechnung von Integralen und Erwartungswerten.

CNC-Maschine mit G-Code-Programmierung in einer modernen Werkstattumgebung.

G-Code: Die Standard-CNC-Programmiersprache

G-Code, früher bekannt als RS-274, ist die am weitesten verbreitete Programmiersprache zur Steuerung von CNC-Maschinen. Er besteht aus sequentiellen Befehlen, die der Maschine Anweisungen zu Positionierung, Geschwindigkeit und bestimmten Aktionen geben. Befehle beginnen mit einer Buchstabenadresse; „G“ steht für vorbereitende Befehle für die Bewegung (z. B. G01 für linearen Vorschub), während „M“ für verschiedene Funktionen steht (z. B. M03 für den Spindelstart).

Informatiker bei der automatisierten Theorembeweisführung in einem Büro der 1960er Jahre.

Automatisiertes Theorembeweisen (ATP)

Automatisiertes Beweisen (ATP) ist ein Teilgebiet der Informatik und mathematischen Logik, das sich mit dem Beweisen mathematischer Theoreme mithilfe von Computerprogrammen befasst. ATP-Systeme, auch Beweiser genannt, nutzen logisches Schließen, um neue Theoreme aus Axiomen und Hypothesen abzuleiten. Sie unterscheiden sich von Beweisassistenten, die mehr menschliche Unterstützung benötigen, obwohl es erhebliche Überschneidungen zwischen den beiden Bereichen gibt.

Programmierer, der in einem modernen Büro die Vererbung in der objektorientierten Programmierung kodiert.

Vererbung (OOP-Programmierung)

Vererbung ist ein Mechanismus in der OOP, bei dem eine neue Klasse (Unterklasse oder abgeleitete Klasse) auf einer bestehenden Klasse (Oberklasse oder Basisklasse) basiert und deren Attribute und Methoden erbt. Dies unterstützt die Wiederverwendbarkeit von Code und schafft eine natürliche Hierarchie zwischen Klassen. Die Unterklasse kann das geerbte Verhalten erweitern oder überschreiben, was spezifischere Implementierungen unter Beibehaltung einer gemeinsamen Schnittstelle ermöglicht.

Software-Ingenieur, der statische Überprüfungen mit Code-Analyse-Tools in der Informatik durchführt.

Statische vs. dynamische Verifizierung (IT)

Die Verifizierungstechniken werden allgemein als statisch oder dynamisch klassifiziert. Bei der statischen Überprüfung (oder statischen Analyse) wird der Code oder das Design des Systems untersucht, ohne es auszuführen. Beispiele hierfür sind Code-Reviews, Inspektionen und automatische statische Analysetools. Bei der dynamischen Überprüfung (oder dem Testen) wird das System mit einer Reihe von Eingaben ausgeführt und sein Verhalten beobachtet, um Fehler zu finden. Beide Verfahren ergänzen sich für eine umfassende Qualitätssicherung.

Risikobewertungssitzung mit Ingenieuren, die die Risikoprioritätszahlen in einem professionellen Büro analysieren.

Risikoprioritätsnummer (RPN)

Die Risikoprioritätszahl (RPZ) ist ein quantitatives Maß, das in der FMEA zur Priorisierung von Risiken verwendet wird. Sie wird als das Produkt aus drei Faktoren berechnet: Schwere (S), Auftreten (O) und Entdeckung (D). Die Formel lautet [latex]RPN = S mal O mal D[/latex]. Jeder Faktor wird in der Regel auf einer Skala von 1 bis 10 bewertet, so dass sich die Teams zunächst auf die Risiken mit der höchsten Punktzahl konzentrieren können.

(wenn das Datum unbekannt oder nicht relevant ist, z. B. „Strömungsmechanik“, wird eine gerundete Schätzung seines bemerkenswerten Auftretens bereitgestellt)