SELEÇÃO DE VARIÁVEIS EM MODELOS DE REGRESSÃO: UMA AVALIAÇÃO DO USO DE REDES BAYESIANAS E MÉTODOS STEPWISE
Purposeful selection of covariates; regressão logística; modelo probabilístico
O principal problema em situações de construção de um modelo é selecionar, de um grande conjunto de variáveis preditoras, aquelas que irão compor o modelo final (melhor modelo). Na abordagem tradicional para construção de modelos estatísticos, procura-se um modelo que seja mais parcimonioso e que reflita com precisão o verdadeiro padrão dos dados. Porém, o principal problema com essa abordagem é que o modelo pode estar “superajustado”, produzindo estimativas numericamente instáveis. Purposeful selection of covariates (PVS) é um método de seleção de covariáveis proposto por Hosmer e Lemeshow (2000), que propõe a seleção de variáveis preditoras de modo que a seleção de variáveis é realizada em cada passo do processo de modelagem. Rede bayesiana (RB) é um método que foi apresentado por Pearl (1985), que descreve um modelo probabilístico gráfico que representa um conjunto de variáveis e suas dependências condicionais por meio de um grafo acíclico direcionado (DAG). O objetivo deste trabalho é comparar o método Purposeful selection of covariates com o método de redes bayesianas, de modo que possa avaliar qual desses métodos de seleção de covariáveis é mais adequado para o ajuste de um modelo de regressão logística. Será realizado um estudo de simulação comparando métodos stepwise com redes bayesianas, também será apresentado uma aplicação em dados reais utilizando o método das redes bayesianas.