Regressão logística
Um modelo de regressão para uma variável dependente categórica, tipicamente binária. Em vez de modelar o resultado diretamente, ele modela a probabilidade do resultado usando a função logística (sigmoide). O modelo prevê o logaritmo das chances do evento como uma combinação linear das variáveis independentes: [latex]ln(frac{p}{1-p}) = beta_0 + beta_1 x_1 + dots + beta_p x_p[/latex], onde p é a probabilidade do evento.
A regressão logística é um algoritmo fundamental para problemas de classificação binária. É um tipo de Modelo Linear Generalizado (GLM) que estende as ideias da regressão linear para casos em que a variável resposta não é contínua. Aplicar a regressão linear diretamente a uma variável resposta binária (0/1) é problemático porque pode produzir probabilidades previstas fora do intervalo lógico [0, 1] e viola a suposição de variância de erro constante da regressão por mínimos quadrados ordinários (OLS).
A regressão logística resolve isso usando uma função de ligação para transformar o resultado. Ela modela o logaritmo das chances, ou ℓ logᵢ, como uma função linear dos preditores. As chances são a razão entre a probabilidade de sucesso (p) e a probabilidade de falha (1-p). Essa transformação, ℓ logᵢ(p) = ln(p/(1-p)), mapeia a probabilidade do intervalo [0, 1] para toda a reta numérica real (-∞, +∞), tornando-a adequada para um modelo linear.
Para retornar a uma probabilidade, aplica-se a inversa da função logit, que é a função logística ou sigmoide: [latex]p = frac{e^{beta_0 + beta_1 x_1 + dots}}{1 + e^{beta_0 + beta_1 x_1 + dots}}[/latex]. Ao contrário da regressão linear, os parâmetros ([latex]beta[/latex]) não são estimados usando mínimos quadrados. Em vez disso, eles são normalmente encontrados usando a Estimação de Máxima Verossimilhança (EMV), um processo iterativo que encontra os valores dos parâmetros que maximizam a probabilidade de observar os dados reais. O modelo pode ser estendido para lidar com problemas multiclasse por meio da regressão logística multinomial.
UNESCO Nomenclature: 1209
Estatísticas
Precursores
- Regressão linear
- Probability theory (Bernoulli distribution)
- Estimativa de máxima verossimilhança (desenvolvida por R.A. Fisher)
- Modelo Probit (um modelo anterior para resultados binários)
- O conceito de modelos lineares generalizados
Aplicações
- diagnóstico médico (ex.: prever a presença de uma doença com base nos sintomas)
- avaliação de crédito e risco financeiro
- detecção de spam em clientes de e-mail
- customer churn prediction in telecommunications and subscription services
- previsão do resultado das eleições
Ideias de Inovação Potencial
Devido ao tráfego de bots de coleta de dados, atualmente superior a 40 mil por dia, este conteúdo é reservado aos membros da comunidade.
> Login < ou > Registrar < (100% gratuito) para acessar isso, assim como todo o restante do conteúdo e das ferramentas restritas.
Relacionado a: regressão logística, classificação, resultado binário, função sigmoide, log-odds, estimação de máxima verossimilhança, aprendizado de máquina, modelagem preditiva, modelo linear generalizado, dados categóricos.