Regresión logística
Modelo de regresión para una variable dependiente categórica, normalmente binaria. En lugar de modelizar el resultado directamente, modela la probabilidad del resultado utilizando la función logística (sigmoide). El modelo predice las probabilidades logarítmicas del suceso como una combinación lineal de las variables independientes: [latex]\ln(\frac{p}{1-p}) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p[/latex], donde p es la probabilidad del suceso.
La regresión logística es un algoritmo fundamental para problemas de clasificación binaria. Se trata de un tipo de modelo lineal generalizado (GLM) que extiende los principios de la regresión lineal a casos donde la variable de respuesta no es continua. Aplicar la regresión lineal directamente a una variable de respuesta binaria (0/1) resulta problemático, ya que puede generar probabilidades predichas fuera del intervalo lógico [0, 1] e incumple el supuesto de mínimos cuadrados ordinarios (MCO) de varianza de error constante.
La regresión logística resuelve este problema utilizando una función de enlace para transformar el resultado. Modela el logaritmo de las probabilidades, o «logit», como una función lineal de las variables predictoras. Las probabilidades son la razón entre la probabilidad de éxito (p) y la probabilidad de fracaso (1-p). Esta transformación, logit(p) = ln(p/(1-p)), traslada la probabilidad del intervalo [0, 1] a toda la recta numérica real (-∞, +∞), lo que la hace adecuada para un modelo lineal.
Para obtener una probabilidad, se aplica la inversa de la función logit, que es la función logística o sigmoide: [latex]p = frac{e^{beta_0 + beta_1 x_1 + dots}}{1 + e^{beta_0 + beta_1 x_1 + dots}}[/latex]. A diferencia de la regresión lineal, los parámetros ([latex]beta[/latex]) no se estiman mediante mínimos cuadrados. En cambio, se suelen encontrar mediante la Estimación de Máxima Verosimilitud (EMV), un proceso iterativo que halla los valores de los parámetros que maximizan la probabilidad de observar los datos reales. El modelo puede extenderse para manejar problemas de clasificación multiclase mediante regresión logística multinomial.
UNESCO Nomenclature: 1209
- Estadísticas
Precursores
- Regresión lineal
- Teoría de la probabilidad (distribución de Bernoulli)
- Estimación de máxima verosimilitud (desarrollada por RA Fisher)
- Modelo Probit (un modelo anterior para resultados binarios)
- El concepto de modelos lineales generalizados
Aplicaciones
- diagnóstico médico (por ejemplo, predecir la presencia de una enfermedad basándose en los síntomas)
- calificación crediticia y evaluación de riesgos financieros
- detección de spam en clientes de correo electrónico
- Predicción de la pérdida de clientes en telecomunicaciones y servicios de suscripción
- predicción del resultado electoral
Ideas para posibles innovaciones
Debido al bloqueo del tráfico generado por bots, que actualmente supera los 40.000 al día, este contenido está reservado para los miembros de la comunidad.
> Iniciar sesión < o > Registrarse < (100% gratis) para acceder a esto, al igual que a todo el demás contenido y herramientas restringidos.
Relacionado con: regresión logística, clasificación, resultado binario, función sigmoide, logaritmo de probabilidades, estimación de máxima verosimilitud, aprendizaje automático, modelado predictivo, modelo lineal generalizado, datos categóricos.