Comparação entre modelos de regressão distribucional e de aprendizado de máquina para respostas contínuas
Clima; GAMLSS; Machine Learning; Regressão
Os modelos de regressão univariados remotam ao século XIX e visam compreender como um conjunto de variáveis explicativas influencia ou explica uma variável resposta. Embora seja comum encontrar trabalhos que comparem metodologias flexíveis de aprendizado de máquina com modelos de regressão convencionais, essa comparação pode não ser adequada, devido às pressuposições rigorosas e a restrição de flexibilidade dos modelos de regressão usuais. Assim, este projeto de dissertação propõe verificar e comparar o desempenho dos modelos de regressão distribucional, inicialmente propostos como modelos aditivos generalizados para locação, escala e forma (GAMLSS), que são uma abordagem mais moderna e flexível, com alguns dos algoritmos de aprendizado de máquina mais utilizados na literatura, como random forest, support vector regression e extreme gradient boosting, para conjuntos de dados com resposta contínua. Em um primeiro estudo, já publicado em um periódico, foi destacada a necessidade de utilizar GAMLSS na modelagem de dados meteorológicos, especificamente a temperatura média diária em um período de um ano na cidade de Florianópolis - SC. Esse estudo mostrou que modelos de regressão menos complexos não seriam adequados para explicar completamente a resposta, devido às diferentes estruturas de regressão construídas na sua distribuição. Para a continuação do desenvolvimento desta dissertação, tem-se como objetivo comparar o ajuste e o poder preditivo dos GAMLSS, comparando-os com os algoritmos de machine learning mencionados.