Eventos raros; stacking; calibração probabilística; limiar de decisão.
Situações de desbalanceamento de classes são comuns em diversas áreas da ciência. Sabe-se
que o desbalanceamento pode compromenter o desempenho de algoritmos de classificação,
deslocando a fronteira de decisão em direção à classe majoritária e distorcendo métricas tradicio-
nais de avaliação. Este projeto tem como objetivo avaliar o impacto do desbalanceamento no
desempenho preditivo de sete arquiteturas de aprendizado de máquina. Utilizou-se um estudo
de simulação de Monte Carlo com 128 cenários, combinando variações de tamanho amostral,
número de covariáveis e níveis de prevalência da classe minoritária (α = 0,05; 0,075; 0,10;
0,20). Foram comparados os modelos de regressão logística com penalização de Firth, regressão
logística com pesos locais aprendíveis (LWG), máquina de vetores de suporte linear (SVM),
Random Forest, XGBoost e duas configurações de stacking com meta-modelo logístico. A
avaliação desses modelos foi realizada via métricas de discriminação global (AUC-PR), desem-
penho operacional (acurácia balanceada e coeficiente de correlação de Matthews) e calibração
probabilística. Os resultados sugerem que o modelo logístico com penalidade de Firth apresentou
a melhor discriminação na situação em que variáveis explicativas atuam de forma aditiva e sem
interação (AUC-PR mediana igual a 0,570), enquanto o stacking destacou-se no cenário com
interação (AUC-PR = 0,514). Observou-se, também, que a escolha do limiar de decisão é fator
crítico em problemas com eventos raros, e que os ganhos do stacking foram modestos e restritos
ao cenário com interação.