DETECÇÃO DE FRAUDES EM AUDITORIA INTERNA POR MEIO DE ALGORITMOS DE APRENDIZADO DE MÁQUINA
aprendizado de máquina; auditoria; fraudes; semi-supervisionado; CAATs.
Este estudo investigou a aplicação de algoritmos de aprendizado de máquina para apoiar a de-
tecção de fraudes e anomalias contábeis em uma empresa do setor logístico. A base de dados foi
extraída do ERP Protheus, abrangendo registros de serviços adquiridos entre 2023 e 2025. Fo-
ram comparadas três estratégias de aprendizado semi-supervisionado, Active Learning, Pseudo-
Labeling e Label Propagation, aplicadas a diferentes modelos, incluindo regressão logística,
MLP, XGBoost e CatBoost. O protocolo experimental consistiu em rodar cada combinação de
modelo e estratégia por 10 repetições independentes, com amostragem estratificada e uso de
um conjunto de teste fixo para aferição final. Os resultados indicaram que o Active Learning,
em especial combinado ao CatBoost, alcançou o melhor desempenho, com F1 de 0,94 e PR-
AUC de 0,98. Como segunda melhor estratégia, o CatBoost com Label Propagation obteve F1
de 0,80 e PR-AUC de 0,87. O Pseudo-Labeling, por sua vez, apresentou limitações em itera-
ções posteriores devido à propagação de ruído. Em termos práticos, os achados demonstram
o potencial de integração de técnicas semi-supervisionadas aos processos de auditoria interna,
promovendo maior eficiência na priorização de casos suspeitos, redução de custos operacionais
e fortalecimento da governança corporativa.