Product Design, Manufacturing & Innovation Resources
Maison » Régression logistique

Régression logistique

1960
  • David Cox
Statisticien analysant les données de régression logistique pour des applications médicales et financières.

(Image générée à titre d'illustration uniquement)

Modèle de régression pour une variable dépendante catégorique, généralement binaire. Au lieu de modéliser directement le résultat, il modélise la probabilité du résultat à l'aide de la fonction logistique (sigmoïde). Le modèle prédit le log-odds de l'événement comme une combinaison linéaire des variables indépendantes : [latex]\ln(\frac{p}{1-p}) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p[/latex], où p est la probabilité de l'événement.

La régression logistique est un algorithme fondamental pour les problèmes de classification binaire. C'est un type de modèle linéaire généralisé (GLM) qui étend les principes de la régression linéaire aux cas où la variable dépendante n'est pas continue. Appliquer directement la régression linéaire à une variable dépendante binaire (0/1) est problématique car cela peut produire des probabilités prédites en dehors de l'intervalle logique [0, 1] et viole l'hypothèse des moindres carrés ordinaires (MCO) d'homoscédasticité.

La régression logistique résout ce problème en utilisant une fonction de lien pour transformer la variable dépendante. Elle modélise le logarithme des cotes, ou `logit`, comme une fonction linéaire des prédicteurs. Les cotes sont le rapport entre la probabilité de succès (`p`) et la probabilité d'échec (`1-p`). Cette transformation, `logit(p) = ln(p/(1-p))`, fait passer la probabilité de l'intervalle [0, 1] à l'ensemble des nombres réels [-∞, +∞)], la rendant ainsi compatible avec un modèle linéaire.

Pour obtenir une probabilité, on applique la fonction inverse de la fonction logit, c'est-à-dire la fonction logistique ou sigmoïde : p = e^(β₀ + β₁x₁ + …) / (1 + e^(β₀ + β₁x₁ + …). Contrairement à la régression linéaire, les paramètres (β) ne sont pas estimés par la méthode des moindres carrés. Ils sont généralement déterminés par l'estimation du maximum de vraisemblance (EMV), un processus itératif qui trouve les valeurs des paramètres maximisant la vraisemblance d'observer les données réelles. Le modèle peut être étendu aux problèmes multiclasses grâce à la régression logistique multinomiale.

UNESCO Nomenclature: 1209
- Statistiques

Taper

Logiciel/Algorithme

Perturbation

Substantiel

Usage

Utilisation généralisée

Précurseurs

  • Régression linéaire
  • Théorie des probabilités (distribution de Bernoulli)
  • Estimation du maximum de vraisemblance (développée par RA Fisher)
  • Modèle Probit (un modèle antérieur pour les résultats binaires)
  • Le concept de modèles linéaires généralisés

Applications

  • diagnostic médical (par exemple, prédire la présence d'une maladie en fonction des symptômes)
  • notation de crédit et évaluation des risques financiers
  • détection de spam dans les clients de messagerie
  • prévision du taux de désabonnement des clients dans les services de télécommunications et d'abonnement
  • prédiction du résultat des élections

Brevets:

NA

Idées d'innovations potentielles

En raison du trafic généré par les robots de scraping, actuellement supérieur à 40 000 par jour, ce contenu est réservé aux membres de la communauté.
> Connexion < ou > Registre < (100% gratuit) pour y accéder, ainsi qu'à tous les autres contenus et outils à accès restreint.

En lien avec : régression logistique, classification, résultat binaire, fonction sigmoïde, logarithme des cotes, estimation du maximum de vraisemblance, apprentissage automatique, modélisation prédictive, modèle linéaire généralisé, données catégorielles.

Contexte historique

Régression logistique

1950
1952
1956
1960
1967
1967
1970
1950
1950
1953
1960
1960
1967
1970
1970

(si la date est inconnue ou non pertinente, par exemple « mécanique des fluides », une estimation arrondie de son émergence notable est fournie)

Inventions, innovations et principes techniques connexes

Les images en pleine résolution et les téléchargements sont uniquement disponibles, et 100% gratuits, pour les membres inscrits.