Aplicações de métodos de seleção de variáveis em modelos de regressão
Lasso; random forest; regressão logísica; stepwise
Modelos de regressão são técnicas utilizadas para estabelecer relação de causa/efeito entre uma variável resposta e uma ou mais variáveis explicativas. Com o avanço tecnológico o volume de dados e a dimensão dos dados analisados é cada vez maior. Enquanto por um lado, o grande número de variáveis pode aumentar a capacidade preditiva do modelo, por outro lado, muitas destas variáveis podem contribuir pouco e gerar um alto custo computacional fazendo-se necessário a seleção de variáveis e busca por aquelas que têm maior impacto no modelo. O objetivo deste trabalho foi avaliar o uso de métodos de seleção de variáveis em dois estudos de caso. O primeiro trata-se de um estudo de avaliação de frequência e segurança alimentar de pré-escolares do município de Lavras, MG. As respostas analisadas nessa primeira etapa são dados de categorias da Escala Brasileira de Insegurança Alimentar (EBIA) e do Questionário de Frequência Alimentar (QFA), ajustados por modelos logísticos. A amostra utilizada envolve dados de 581 pré-escolares caracterizados por cerca de 50 variáveis, de diferentes tipos. Foram considerados os métodos stepwise, lasso, o Purposeful Selection of Covariates (PSV) e Random Forest para de seleção de variáveis. Posteriormente foram obtidos os modelos logísticos com as variáveis selecionadas por estes métodos. Os modelos foram avaliados em termos de AIC e de deviance residual. Dentre os métodos avaliados, o que produziu o modelo com melhor desempenho foi o Stepwise. A segunda aplicação envolve um cenário de dados de alta dimensão obtidos com a utilização de NIRS em um problema de predição de consumo alimentar a partir de fezes de vacas leiteiras em um rebanho. Foram considerados os métodos stepwise, lasso e random forest para seleção de variáveis. O lasso apresentou bom desempenho no estudo de validação cruzada. No entanto, esse estudo se limita na utilização dos métodos de forma independente, já que outros autores obtiveram bons resultados aplicando mais de um método simultaneamente. As contribuições deste estudo de caso estão na comparação entre lasso e random forest usados separadamente para seleção de variáveis em NIRS e a comparação entre
diferentes tipos de validações para os modelos obtidos com o uso do lasso.