Product Design, Manufacturing & Innovation Resources

Lar » Regressão logística

Regressão logística

1960

David Cox

(Imagem gerada apenas para fins ilustrativos)

Um modelo de regressão para uma variável dependente categórica, tipicamente binária. Em vez de modelar o resultado diretamente, ele modela a probabilidade do resultado usando a função logística (sigmoide). O modelo prevê o logaritmo das chances do evento como uma combinação linear das variáveis independentes: [latex]ln(frac{p}{1-p}) = beta_0 + beta_1 x_1 + dots + beta_p x_p[/latex], onde p é a probabilidade do evento.

A regressão logística é um algoritmo fundamental para problemas de classificação binária. É um tipo de Modelo Linear Generalizado (GLM) que estende as ideias da regressão linear para casos em que a variável resposta não é contínua. Aplicar a regressão linear diretamente a uma variável resposta binária (0/1) é problemático porque pode produzir probabilidades previstas fora do intervalo lógico [0, 1] e viola a suposição de variância de erro constante da regressão por mínimos quadrados ordinários (OLS).

A regressão logística resolve isso usando uma função de ligação para transformar o resultado. Ela modela o logaritmo das chances, ou ℓ logᵢ, como uma função linear dos preditores. As chances são a razão entre a probabilidade de sucesso (p) e a probabilidade de falha (1-p). Essa transformação, ℓ logᵢ(p) = ln(p/(1-p)), mapeia a probabilidade do intervalo [0, 1] para toda a reta numérica real (-∞, +∞), tornando-a adequada para um modelo linear.

Para retornar a uma probabilidade, aplica-se a inversa da função logit, que é a função logística ou sigmoide: [latex]p = frac{e^{beta_0 + beta_1 x_1 + dots}}{1 + e^{beta_0 + beta_1 x_1 + dots}}[/latex]. Ao contrário da regressão linear, os parâmetros ([latex]beta[/latex]) não são estimados usando mínimos quadrados. Em vez disso, eles são normalmente encontrados usando a Estimação de Máxima Verossimilhança (EMV), um processo iterativo que encontra os valores dos parâmetros que maximizam a probabilidade de observar os dados reais. O modelo pode ser estendido para lidar com problemas multiclasse por meio da regressão logística multinomial.

Aprendizado de máquina, Garantia de Qualidade, Controle de qualidade, Gestão da Qualidade, Análise Estatística, Controle Estatístico de Processo (CEP)

UNESCO Nomenclature: 1209

Estatísticas

Tipo

Software/Algoritmo

Interrupção

Substancial

Uso

Uso generalizado

Precursores

Regressão linear
Probability theory (Bernoulli distribution)
Estimativa de máxima verossimilhança (desenvolvida por R.A. Fisher)
Modelo Probit (um modelo anterior para resultados binários)
O conceito de modelos lineares generalizados

Aplicações

diagnóstico médico (ex.: prever a presença de uma doença com base nos sintomas)
avaliação de crédito e risco financeiro
detecção de spam em clientes de e-mail
customer churn prediction in telecommunications and subscription services
previsão do resultado das eleições

Patentes:

Ideias de Inovação Potencial

Devido ao tráfego de bots de coleta de dados, atualmente superior a 40 mil por dia, este conteúdo é reservado aos membros da comunidade.
> Login < ou > Registrar < (100% gratuito) para acessar isso, assim como todo o restante do conteúdo e das ferramentas restritas.

Relacionado a: regressão logística, classificação, resultado binário, função sigmoide, log-odds, estimação de máxima verossimilhança, aprendizado de máquina, modelagem preditiva, modelo linear generalizado, dados categóricos.

Contexto histórico

Classroom demonstration of Monte Carlo method for estimating Pi in numerical analysis.

Estimativa de Pi por Monte Carlo

Uma ilustração clássica do método de Monte Carlo é a estimativa do valor de π. Ao inscrever um círculo de raio r em um quadrado de lado 2r, a razão entre suas áreas é πr²/(2r)² = π/4. Espalhando pontos aleatoriamente dentro do quadrado e contando a fração p que cai dentro do círculo, obtemos uma estimativa: π ≈ 4p.

Grace Hopper working on the A-0 System compiler in a 1950s office.

O primeiro compilador: Sistema A-0

O sistema A-0, criado em 1952 por Grace Hopper, é amplamente considerado o primeiro compilador. Ele traduzia uma sequência de sub-rotinas e argumentos, especificados por uma notação matemática, em código de máquina. Este foi um passo fundamental na transição da programação em linguagem assembly de baixo nível para linguagens de programação de alto nível e mais abstratas, automatizando o tedioso processo de tradução manual de código.

Analista de controle de qualidade monitorando o gráfico de controle de Shewhart em busca de padrões não aleatórios.

Regras da Western Electric (testes estatísticos em cartas de controle)

Um conjunto de quatro regras de decisão para detectar padrões não aleatórios em cartas de controle de Shewhart, indicando um processo fora de controle mesmo que nenhum ponto esteja fora dos limites de 3 sigmas. Essas regras identificam sequências anormais, tendências ou agrupamentos de pontos de dados que sinalizam a presença de uma causa especial de variação. Elas aumentam a sensibilidade das cartas de controle.

Regressão logística

Computer programming workspace showcasing object-oriented programming concepts.

O objeto na POO (programação orientada a objetos)

Na programação orientada a objetos (POO), um objeto é uma entidade fundamental que agrupa dados (atributos ou propriedades) e os métodos (funções ou procedimentos) que operam sobre esses dados. Os objetos são instâncias de classes, que atuam como modelos. Esse paradigma modela entidades do mundo real, tornando sistemas complexos mais fáceis de gerenciar ao agrupar estados e comportamentos relacionados em unidades autocontidas.

Computer programming workspace demonstrating polymorphism with code snippets.

Polimorfismo (programação)

Polimorfismo, do grego "muitas formas", permite que objetos de diferentes classes sejam tratados como objetos de uma superclasse comum. Ele possibilita que uma única interface, como o nome de um método, seja usada para uma classe geral de ações. A ação específica é determinada pelo tipo exato do objeto em tempo de execução. Isso geralmente é obtido por meio da sobrescrita de métodos.

Statistician applying Metropolis-Hastings algorithm in a modern research lab.

Algoritmo de Metropolis-Hastings

O algoritmo de Metropolis-Hastings é um método MCMC proeminente para obter uma sequência de amostras aleatórias de uma distribuição de probabilidade para a qual a amostragem direta é difícil. A cada iteração, ele gera um candidato para a próxima amostra com base na amostra atual. Esse candidato é então aceito ou rejeitado com uma certa probabilidade, garantindo que a cadeia resultante convirja para a distribuição desejada.

1950

1952

1956

1960

1967

1970

1950

1953

1960

1967

1970

CNC machine executing motion interpolation for complex geometries in applied mathematics.

Interpolação de movimento CNC

A interpolação é o processo computacional dentro de um controlador CNC que gera uma sequência de pontos de coordenadas intermediários para criar um caminho suave entre os pontos finais programados. Os tipos mais fundamentais são a interpolação linear (G01) para linhas retas e a interpolação circular (G02/G03) para arcos. Isso permite que perfis complexos sejam usinados a partir de comandos geométricos simples no programa de código G.

Sala de controle aeroespacial com três módulos de computador paralelos para tolerância a falhas.

Redundância Modular Tripla (TMR)

TMR (Triple Modular Redundancy) é uma técnica de tolerância a falhas de hardware que utiliza três módulos idênticos executando a mesma operação em paralelo. Suas saídas são conectadas a um circuito de votação majoritária. Se um módulo falhar e produzir uma saída incorreta, o circuito de votação ainda consegue determinar a saída correta com base nos outros dois módulos, mascarando assim a falha e garantindo a operação contínua.

Researcher analyzing Markov Chain Monte Carlo simulations in a statistical analysis office.

Cadeia de Markov Monte Carlo (MCMC)

Os métodos de Monte Carlo via Cadeias de Markov (MCMC) são uma classe de algoritmos para amostragem de uma distribuição de probabilidade. Uma cadeia de Markov é construída tendo a distribuição desejada como sua distribuição de equilíbrio ou estacionária. O estado da cadeia após um grande número de passos é então usado como uma amostra da distribuição desejada, permitindo o cálculo de integrais e esperanças.

CNC machine with G-code programming in a modern workshop setting.

Código G: A linguagem de programação CNC padrão

O código G, formalmente conhecido como RS-274, é a linguagem de programação mais utilizada para controlar máquinas CNC. Consiste em comandos sequenciais que instruem a máquina sobre posicionamento, velocidade e ações específicas. Os comandos começam com uma letra; 'G' indica comandos preparatórios para movimento (por exemplo, G01 para avanço linear), enquanto 'M' significa funções diversas (por exemplo, M03 para partida do fuso).

Computer scientist conducting automated theorem proving in a 1960s office.

Prova Automatizada de Teoremas (ATP)

A demonstração automática de teoremas (ATP, na sigla em inglês) é um subcampo da ciência da computação e da lógica matemática dedicado à demonstração de teoremas matemáticos por meio de programas de computador. Os sistemas ATP, ou demonstradores, utilizam o raciocínio lógico para deduzir novos teoremas a partir de um conjunto de axiomas e hipóteses. Eles se distinguem dos assistentes de demonstração, que requerem maior intervenção humana, embora os campos se sobreponham significativamente.

Programmer coding inheritance in object-oriented programming at a modern office.

Herança (programação orientada a objetos)

A herança é um mecanismo da Programação Orientada a Objetos (POO) onde uma nova classe (subclasse ou classe derivada) é baseada em uma classe existente (superclasse ou classe base), herdando seus atributos e métodos. Isso facilita a reutilização de código e estabelece uma hierarquia natural entre as classes. A subclasse pode estender ou sobrescrever o comportamento herdado, permitindo implementações mais específicas, mantendo, ao mesmo tempo, uma interface comum.

Software engineer performing static verification using code analysis tools in Computer Science.

Verificação estática versus dinâmica (TI)

As técnicas de verificação são amplamente classificadas como estáticas ou dinâmicas. A verificação estática (ou análise estática) examina o código ou o projeto do sistema sem executá-lo. Exemplos incluem revisões de código, inspeções e ferramentas automatizadas de análise estática. A verificação dinâmica (ou teste) envolve a execução do sistema com um conjunto de entradas e a observação de seu comportamento para encontrar defeitos. Ambas são complementares para uma garantia de qualidade abrangente.

Risk assessment meeting with engineers analyzing Risk Priority Numbers in a professional office.

Número de Prioridade de Risco (NPR)

O Número de Prioridade de Risco (NPR) é uma medida quantitativa usada na FMEA para priorizar riscos. É calculado como o produto de três fatores classificados: Severidade (S), Ocorrência (O) e Detecção (D). A fórmula é NPR = S × O × D. Cada fator é normalmente avaliado em uma escala de 1 a 10, permitindo que as equipes se concentrem primeiro nos riscos com maior pontuação.

(Caso a data seja desconhecida ou irrelevante, por exemplo, "mecânica dos fluidos", é fornecida uma estimativa aproximada de seu surgimento notável)