Product Design, Manufacturing & Innovation Resources
Lar » Regressão logística

Regressão logística

1960
  • David Cox
Statistician analyzing logistic regression data for medical and financial applications.

(Imagem gerada apenas para fins ilustrativos)

Um modelo de regressão para uma variável dependente categórica, tipicamente binária. Em vez de modelar o resultado diretamente, ele modela a probabilidade do resultado usando a função logística (sigmoide). O modelo prevê o logaritmo das chances do evento como uma combinação linear das variáveis ​​independentes: [latex]ln(frac{p}{1-p}) = beta_0 + beta_1 x_1 + dots + beta_p x_p[/latex], onde p é a probabilidade do evento.

A regressão logística é um algoritmo fundamental para problemas de classificação binária. É um tipo de Modelo Linear Generalizado (GLM) que estende as ideias da regressão linear para casos em que a variável resposta não é contínua. Aplicar a regressão linear diretamente a uma variável resposta binária (0/1) é problemático porque pode produzir probabilidades previstas fora do intervalo lógico [0, 1] e viola a suposição de variância de erro constante da regressão por mínimos quadrados ordinários (OLS).

A regressão logística resolve isso usando uma função de ligação para transformar o resultado. Ela modela o logaritmo das chances, ou ℓ logᵢ, como uma função linear dos preditores. As chances são a razão entre a probabilidade de sucesso (p) e a probabilidade de falha (1-p). Essa transformação, ℓ logᵢ(p) = ln(p/(1-p)), mapeia a probabilidade do intervalo [0, 1] para toda a reta numérica real (-∞, +∞), tornando-a adequada para um modelo linear.

Para retornar a uma probabilidade, aplica-se a inversa da função logit, que é a função logística ou sigmoide: [latex]p = frac{e^{beta_0 + beta_1 x_1 + dots}}{1 + e^{beta_0 + beta_1 x_1 + dots}}[/latex]. Ao contrário da regressão linear, os parâmetros ([latex]beta[/latex]) não são estimados usando mínimos quadrados. Em vez disso, eles são normalmente encontrados usando a Estimação de Máxima Verossimilhança (EMV), um processo iterativo que encontra os valores dos parâmetros que maximizam a probabilidade de observar os dados reais. O modelo pode ser estendido para lidar com problemas multiclasse por meio da regressão logística multinomial.

UNESCO Nomenclature: 1209
Estatísticas

Tipo

Software/Algoritmo

Interrupção

Substancial

Uso

Uso generalizado

Precursores

  • Regressão linear
  • Probability theory (Bernoulli distribution)
  • Estimativa de máxima verossimilhança (desenvolvida por R.A. Fisher)
  • Modelo Probit (um modelo anterior para resultados binários)
  • O conceito de modelos lineares generalizados

Aplicações

  • diagnóstico médico (ex.: prever a presença de uma doença com base nos sintomas)
  • avaliação de crédito e risco financeiro
  • detecção de spam em clientes de e-mail
  • customer churn prediction in telecommunications and subscription services
  • previsão do resultado das eleições

Patentes:

NA

Ideias de Inovação Potencial

Devido ao tráfego de bots de coleta de dados, atualmente superior a 40 mil por dia, este conteúdo é reservado aos membros da comunidade.
> Login < ou > Registrar < (100% gratuito) para acessar isso, assim como todo o restante do conteúdo e das ferramentas restritas.

Relacionado a: regressão logística, classificação, resultado binário, função sigmoide, log-odds, estimação de máxima verossimilhança, aprendizado de máquina, modelagem preditiva, modelo linear generalizado, dados categóricos.

Contexto histórico

Regressão logística

1950
1952
1956
1960
1967
1967
1970
1950
1950
1953
1960
1960
1967
1970
1970

(Caso a data seja desconhecida ou irrelevante, por exemplo, "mecânica dos fluidos", é fornecida uma estimativa aproximada de seu surgimento notável)

Princípios relacionados à invenção, inovação e tecnologia

Imagens em tamanho real e downloads estão disponíveis apenas, 100% gratuitos, para membros registrados.