COMPARAÇÃO DE MODELOS DE APRENDIZADO DE MÁQUINA NA PREDIÇÃO DO DIABETES
Aprendizado de máquinas; Predição do Diabetes; Curva Roc; Sensibilidade; Modelos Supervisionados.
O presente trabalho avalia o desempenho de diferentes modelos de aprendizado de máquina (AM) na predição de Diabetes, uma condição crônica de grande relevância para a saúde pública. Utilizando dados do VIGITEL 2023, que incluem mais de 21 mil observações, foi realizado um processo de pré-processamento completo, que envolveu seleção de variáveis, balanceamento de classes, tratamento de valores ausentes e padronização dos dados. Os algoritmos analisados foram Árvores de Decisão, Florestas Aleatórias, Naive Bayes, Redes Neurais Artificiais e XGBoost. A avaliação do desempenho dos modelos foi conduzida com base em métricas como sensibilidade e área sob a curva ROC, fundamentais para identificar casos positivos e realizar uma discriminação eficiente entre as classes. O modelo XGBoost se destacou como o mais eficaz, apresentando as melhores métricas de sensibilidade, especificidade e área sob a curva ROC em quase todas as abordagens (considerandas todas as variáveis, MIC - Maximal Information Coefficient e PCA - Principal Component Analysis), tanto para dados balanceados quanto desbalanceados, o que evidencia sua superior capacidade preditiva. Em contraste, o modelo de Árvore de Decisão obteve o desempenho mais inferior, destacando suas limitações quando aplicado a dados desbalanceados. Os resultados reforçam o potencial do aprendizado de máquina na detecção precoce de doenças crônicas, como o Diabetes, sublinhando sua relevância para aprimorar diagnósticos médicos, otimizar custos e fornecer suporte crucial para intervenções clínicas mais eficazes.