Régression logistique
Modèle de régression pour une variable dépendante catégorique, généralement binaire. Au lieu de modéliser directement le résultat, il modélise la probabilité du résultat à l'aide de la fonction logistique (sigmoïde). Le modèle prédit le log-odds de l'événement comme une combinaison linéaire des variables indépendantes : [latex]\ln(\frac{p}{1-p}) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p[/latex], où p est la probabilité de l'événement.
La régression logistique est un algorithme fondamental pour les problèmes de classification binaire. C'est un type de modèle linéaire généralisé (GLM) qui étend les principes de la régression linéaire aux cas où la variable dépendante n'est pas continue. Appliquer directement la régression linéaire à une variable dépendante binaire (0/1) est problématique car cela peut produire des probabilités prédites en dehors de l'intervalle logique [0, 1] et viole l'hypothèse des moindres carrés ordinaires (MCO) d'homoscédasticité.
La régression logistique résout ce problème en utilisant une fonction de lien pour transformer la variable dépendante. Elle modélise le logarithme des cotes, ou `logit`, comme une fonction linéaire des prédicteurs. Les cotes sont le rapport entre la probabilité de succès (`p`) et la probabilité d'échec (`1-p`). Cette transformation, `logit(p) = ln(p/(1-p))`, fait passer la probabilité de l'intervalle [0, 1] à l'ensemble des nombres réels [-∞, +∞)], la rendant ainsi compatible avec un modèle linéaire.
Pour obtenir une probabilité, on applique la fonction inverse de la fonction logit, c'est-à-dire la fonction logistique ou sigmoïde : p = e^(β₀ + β₁x₁ + …) / (1 + e^(β₀ + β₁x₁ + …). Contrairement à la régression linéaire, les paramètres (β) ne sont pas estimés par la méthode des moindres carrés. Ils sont généralement déterminés par l'estimation du maximum de vraisemblance (EMV), un processus itératif qui trouve les valeurs des paramètres maximisant la vraisemblance d'observer les données réelles. Le modèle peut être étendu aux problèmes multiclasses grâce à la régression logistique multinomiale.
UNESCO Nomenclature: 1209
- Statistiques
Taper
Logiciel/Algorithme
Usage
Utilisation généralisée
Précurseurs
- Régression linéaire
- Théorie des probabilités (distribution de Bernoulli)
- Estimation du maximum de vraisemblance (développée par RA Fisher)
- Modèle Probit (un modèle antérieur pour les résultats binaires)
- Le concept de modèles linéaires généralisés
Applications
- diagnostic médical (par exemple, prédire la présence d'une maladie en fonction des symptômes)
- notation de crédit et évaluation des risques financiers
- détection de spam dans les clients de messagerie
- prévision du taux de désabonnement des clients dans les services de télécommunications et d'abonnement
- prédiction du résultat des élections
Idées d'innovations potentielles
En raison du trafic généré par les robots de scraping, actuellement supérieur à 40 000 par jour, ce contenu est réservé aux membres de la communauté.
> Connexion < ou > Registre < (100% gratuit) pour y accéder, ainsi qu'à tous les autres contenus et outils à accès restreint.
En lien avec : régression logistique, classification, résultat binaire, fonction sigmoïde, logarithme des cotes, estimation du maximum de vraisemblance, apprentissage automatique, modélisation prédictive, modèle linéaire généralisé, données catégorielles.