Regressão logística

modelo estatístico

A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.[1][2]

A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico, modelo logit, e classificador de máxima entropia. A regressão logística é utilizada em áreas como as seguintes:

  • Em medicina, permite por exemplo determinar os factores que caracterizam um grupo de indivíduos doentes em relação a indivíduos sãos;
  • No domínio dos seguros, permite encontrar fracções da clientela que sejam sensíveis a determinada política securitária em relação a um dado risco particular;
  • Em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito;
  • Em econometria, permite explicar uma variável discreta, como por exemplo as intenções de voto em actos eleitorais.

O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos.

Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo facto de a variável resposta ser categórica.

Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neurais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver.

Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros factores. É um modelo linear generalizado que usa como função de ligação a função logit.

Assunções:[3][4]

Não pressupõe normalidade dos resíduos nem homogeneidade de variâncias.

Por isso torna preferível em situações práticas.

Aplicações

editar

A regressão logística é usada em vários campos, incluindo o aprendizado de máquina (machine learning), a maioria dos campos médicos e ciências sociais. Por exemplo, o Trauma and Injury Severity Score (TRISS), que é amplamente utilizado para prever a mortalidade em pacientes feridos, foi originalmente desenvolvido por Boyd et al. usando regressão logística.[5] Muitas outras escalas médicas usadas para avaliar a severidade de doenças em pacientes têm sido desenvolvidas utilizando a regressão logística.[6][7][8][9] A regressão logística pode ser utilizada para prever o risco de desenvolver uma dada doença (por exemplo, diabetes ou doença arterial coronária), baseado em características observadas do paciente (idade, sexo, índice de massa corporal, resultados de vários testes de sangue, etc, etc.).[10][11][12] Um outro exemplo de uso da regressão logística seria para prever, por exemplo, se um eleitor votará em um dado partido baseado na idade, na renda, no sexo, na raça, no estado de residência, os votos em eleições precedentes, etc. do eleitor.[13] A técnica também pode ser utilizada na engenharia, especialmente para predizer a probabilidade de falha em um dado processo, sistema ou produto.[14][15] Ela também é utilizada em marketing na previsão da propensão de um cliente para comprar um produto, interromper a assinatura de um serviço, etc.[16] Em economia ela pode ser utilizada para prever a probabilidade de uma pessoa estar trabalhando, de um proprietário optar por uma hipoteca. Campos aleatórios condicionais, uma extensão da regressão logística ao dados seqüênciais, são utilizados em processamento de linguagem natural.

Descrição

editar

A regressão logística analisa dados distribuídos binomialmente da forma

 

onde os números de ensaios de Bernoulli ni são conhecidos e as probabilidades de êxito pi são desconhecidas. Um exemplo desta distribuição é a percentagem de sementes (pi) que germinam depois de ni serem plantadas.

O modelo é então obtido na base de que cada ensaio (valor de i) e o conjunto de variáveis explicativas/independentes possa informar acerca da probabilidade final. Estas variáveis explicativas podem-se ver como um vector Xi k-dimensional e o modelo toma então a forma

 

Os logits das probabilidades binomiais desconhecidas (i.e., os logaritmos dos odds) são modelados como uma função linear dos Xi.

 

Note-se que um elemento particular de Xi pode ser ajustado a 1 para todo o i obtendo-se um intercepto no modelo. Os parâmetros desconhecidos βj são habitualmente estimados através de máxima verossimilhança.

A interpretação dos valores estimados do parâmetro βj é similar aos efeitos aditivos em log odds ratio para uma unidade de mudança na jésima variável explicativa. No caso de uma variável explicativa dicotómica, por exemplo o género,   é o estimador de odds ratio de ter o resultado para, por exemplo, homens comparados com mulheres.

O modelo tem uma formulação equivalente dada por

 

Esta forma funcional é habitualmente identificada como um perceptron (ou perceptrão em português europeu) de uma camada simples ou rede neuronal artificial de uma só camada. Uma rede neuronal de uma só camada calcula uma saída contínua em vez de uma função por troços. A derivada de pi em relação a X = x1...xk é calculada na forma geral:

 

onde f(X) é uma função analítica em X. Com esta escolha, a rede de camada simples é idêntica ao modelo de regressão logística. Esta função tem uma derivada contínua, a qual permite ser usada na propagação para trás. Esta função também é preferida pois a sua derivada é facilmente calculável:

 

Extensões

editar

Existem diversas extensões do modelo para tratar variáveis dependentes multicategóricas e/ou ordinais, tais como a regressão politómica. A classificação em várias classes por regressão logística é conhecida como logit multinomial. Uma extensão do modelo logístico para ajustar conjuntos de variáveis independentes é o campo aleatório condicional.

Exemplo

editar

Seja p(x) a probabilidade de êxito quando o valor da variável preditiva é x. Então, seja

 

Depois de alguma álgebra prova-se que

 

onde   são os odds favoráveis (êxito).

Se tomarmos um valor de exemplo, digamos p(50) = 2/3, então

 

Quando x = 50, um êxito é duas vezes mais provável que uma falha, ou seja, pode dizer-se simplesmente que os odds são 2 para 1.

Ver também

editar

Referências

editar
  1. «Logistic Regression». Consultado em 12 de dezembro de 2008 
  2. «Logistic Regression: Statnotes, from North Carolina State University, Public Administration Program». Consultado em 12 de dezembro de 2008 
  3. Fávero, Luiz Paulo Lopes. (2009). Análise de dados : modelagem multivariada para tomada de decisões. [S.l.]: Elsevier. OCLC 457551539 
  4. Campbell, Michael J., 1950- (2006). Statistics at square two. [S.l.]: Blackwell. OCLC 65766965 
  5. Boyd, C. R.; Tolson, M. A.; Copes, W. S. (1987). «Evaluating trauma care: The TRISS method. Trauma Score and the Injury Severity Score». The Journal of Trauma. 27 (4): 370–378. PMID 3106646. doi:10.1097/00005373-198704000-00005 
  6. Kologlu, M.; Elker, D.; Altun, H.; Sayek, I. (2001). «Validation of MPI and PIA II in two different groups of patients with secondary peritonitis». Hepato-Gastroenterology. 48 (37): 147–51. PMID 11268952 
  7. Biondo, S.; Ramos, E.; Deiros, M.; Ragué, J. M.; De Oca, J.; Moreno, P.; Farran, L.; Jaurrieta, E. (2000). «Prognostic factors for mortality in left colonic peritonitis: A new scoring system». Journal of the American College of Surgeons. 191 (6): 635–42. PMID 11129812. doi:10.1016/S1072-7515(00)00758-4 
  8. Marshall, J. C.; Cook, D. J.; Christou, N. V.; Bernard, G. R.; Sprung, C. L.; Sibbald, W. J. (1995). «Multiple organ dysfunction score: A reliable descriptor of a complex clinical outcome». Critical Care Medicine. 23 (10): 1638–52. PMID 7587228. doi:10.1097/00003246-199510000-00007 
  9. Le Gall, J. R.; Lemeshow, S.; Saulnier, F. (1993). «A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study». JAMA. 270 (24): 2957–63. PMID 8254858. doi:10.1001/jama.1993.03510240069035 
  10. David A. Freedman (2009). Statistical Models: Theory and Practice. [S.l.]: Cambridge University Press. p. 128 
  11. Truett, J; Cornfield, J; Kannel, W (1967). «A multivariate analysis of the risk of coronary heart disease in Framingham». Journal of Chronic Diseases. 20 (7): 511–24. PMID 6028270. doi:10.1016/0021-9681(67)90082-3 
  12. Liu, Siyu; Gao, Yue; Shen, Yuhang; Zhang, Min; Li, Jingjing; Sun, Pinghui (dezembro de 2019). «Application of three statistical models for predicting the risk of diabetes». BMC Endocrine Disorders (em inglês). 19 (1). 126 páginas. ISSN 1472-6823. PMC 6878628 . PMID 31771577. doi:10.1186/s12902-019-0456-2 
  13. Harrell, Frank E. (2001). Regression Modeling Strategies 2nd ed. [S.l.]: Springer-Verlag. ISBN 978-0-387-95232-1 
  14. M. Strano; B.M. Colosimo (2006). «Logistic regression analysis for experimental determination of forming limit diagrams». International Journal of Machine Tools and Manufacture. 46 (6): 673–682. doi:10.1016/j.ijmachtools.2005.07.005 
  15. Palei, S. K.; Das, S. K. (2009). «Logistic regression model for prediction of roof fall risks in bord and pillar workings in coal mines: An approach». Safety Science. 47: 88–96. doi:10.1016/j.ssci.2008.01.002 
  16. Berry, Michael J.A (1997). Data Mining Techniques For Marketing, Sales and Customer Support. [S.l.]: Wiley. 10 páginas 

Fontes

editar
  • Agresti, Alan. (2002). Categorical Data Analysis. [S.l.]: New York: Wiley-Interscience. ISBN 0-471-36093-7 
  • Amemiya, T. (1985). Advanced Econometrics. [S.l.]: Harvard University Press. ISBN 0-674-00560-0 
  • Balakrishnan, N. (1991). Handbook of the Logistic Distribution. [S.l.]: Marcel Dekker, Inc. ISBN 978-0824785871 
  • Green, William H. (2003). Econometric Analysis, fifth edition. [S.l.]: Prentice Hall. ISBN 0-13-066189-9 
  • Hosmer, David W.; Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed. [S.l.]: New York; Chichester, Wiley. ISBN 0-471-35632-8 

Ligações externas

editar