SELEÇÃO DE VARIÁVEIS EM MODELOS DE REGRESSÃO: UMA AVALIAÇÃO DO USO DE REDES DE PROBABILIDADES CONDICIONAL
Redes bayesianas. Grafo acíclico direcionado. Modelo probabilístico. Métodos stepwise.
A Rede bayesiana é um método apresentado por Judea Pearl em 1985 que descreve um modelo probabilístico gráfico, representando um conjunto de variáveis e suas dependências condicionais por meio de um grafo acíclico direcionado. Os vértices (ou nós) representam proposições (ou variáveis), as arestas (ou arcos), quando são direcionadas, significam as dependências probabilísticas entre essas variáveis. O objetivo deste trabalho é avaliar o uso de redes bayesianas para seleção de variáveis em modelos de regressão. A técnica é comparada com métodos stepwise em alguns cenários de simulação que consideram diferentes tamanhos amostrais, correlações entre as variáveis (resposta e covariáveis) e diferentes números de variáveis. Além do estudo de simulação, apresentamos uma aplicação prática das redes bayesianas nesse contexto. Para isso, foram usados dados de uma pesquisa realizada entre 2018 e 2019, com médicos veterinários de Minas Gerais, com o objetivo de identificar os fatores de risco mais importantes associados à exposição acidental às vacinas anti-Brucella abortus (Brucelose). Uma das respostas de interesse no trabalho é a prevalência de brucelose entre esses profissionais, que foi estimada a partir de um modelo de regressão logístico. Ao utilizar Rede bayesiana, as variáveis detectadas como mais importantes associadas à exposição acidental às vacinas foram o conhecimento sobre os sintomas da brucelose, se o profissional realizou procedimentos de partos prematuros ou abortos nos últimos seis meses e a frequência que o profissional usa equipamentos de proteção individual. Todas as análises foram realizadas no software R utilizando o pacote bnlearn.