Logistic Regression
Modello di regressione per una variabile dipendente categorica, tipicamente binaria. Invece di modellare direttamente l'esito, modella la probabilità dell'esito utilizzando la funzione logistica (sigmoide). Il modello predice le probabilità logiche dell'evento come combinazione lineare delle variabili indipendenti: [latex]\ln(\frac{p}{1-p}) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p[/latex], dove p è la probabilità dell'evento.
La regressione logistica è un algoritmo fondamentale per i problemi di classificazione binaria. Si tratta di un tipo di modello lineare generalizzato (GLM) che estende i concetti della regressione lineare ai casi in cui la variabile dipendente non è continua. Applicare la regressione lineare direttamente a una variabile dipendente binaria (0/1) è problematico perché può produrre probabilità previste al di fuori dell'intervallo logico [0, 1] e viola l'assunto dei minimi quadrati ordinari (OLS) di varianza dell'errore costante.
La regressione logistica risolve questo problema utilizzando una funzione di collegamento per trasformare il risultato. Modella il logaritmo delle probabilità, o ‘logit’, come una funzione lineare dei predittori. Le probabilità sono il rapporto tra la probabilità di successo ([latex]p[/latex]) e la probabilità di insuccesso ([latex]1-p[/latex]). Questa trasformazione, [latex]text{logit}(p) = ln(p/(1-p))[/latex], mappa la probabilità dall'intervallo [0, 1] all'intera retta dei numeri reali [latex](-infty, +infty)[/latex], rendendola adatta a un modello lineare.
Per tornare a una probabilità, si applica l'inversa della funzione logit, ovvero la funzione logistica o sigmoide: [latex]p = frac{e^{beta_0 + beta_1 x_1 + dots}}{1 + e^{beta_0 + beta_1 x_1 + dots}}[/latex]. A differenza della regressione lineare, i parametri ([latex]beta[/latex]) non vengono stimati con il metodo dei minimi quadrati. Vengono invece tipicamente trovati utilizzando la stima di massima verosimiglianza (MLE), un processo iterativo che individua i valori dei parametri che massimizzano la probabilità di osservare i dati reali. Il modello può essere esteso per gestire problemi multiclasse tramite la regressione logistica multinomiale.
UNESCO Nomenclature: 1209
- Statistiche
Precursori
- Linear regression
- Probability theory (Bernoulli distribution)
- Maximum likelihood estimation (developed by R.A. Fisher)
- Probit model (an earlier model for binary outcomes)
- The concept of generalized linear models
Applicazioni
- medical diagnosis (e.g., predicting disease presence based on symptoms)
- credit scoring and financial risk assessment
- spam detection in email clients
- customer churn prediction in telecommunications and subscription services
- election outcome prediction
Idee e potenziali innovazioni
A causa dell'eliminazione del traffico generato dai bot, che attualmente supera i 40.000 al giorno, questo contenuto è riservato ai membri della community.
> Accedi O > Registrati L'accesso a questo contenuto, così come a tutti gli altri contenuti e strumenti riservati, è (100% gratuito).
Argomenti correlati: regressione logistica, classificazione, esito binario, funzione sigmoide, log-odds, stima di massima verosimiglianza, apprendimento automatico, modellazione predittiva, modello lineare generalizzato, dati categorici.