Classificação automática de dados do Cadastro Ambiental Rural utilizando algoritmos de Aprendizagem de Máquina
Cadastro Ambiental Rural, Classificação de dados, Desbalanceamento de classes, Aprendizagem de Máquina Interpretável, Ciência de dados
O Cadastro Ambiental Rural (CAR) consiste em um registro público eletrônico obrigatório para todos
os imóveis rurais do território brasileiro, integra informações ambientais das propriedades, auxilia
o monitoramento das mesmas e no combate ao desmatamento. Entretanto, um grande número de
cadastros é realizado de maneira errônea gerando dados inconsistentes, levando estes a serem
cancelados e/ou a serem pedidas retificações para o devido preenchimento do cadastro. Realizar
essas verificações de forma manual é deveras oneroso, uma vez que é requerida uma mão de obra
especializada e o Brasil possui uma imensa quantidade de imóveis rurais. Neste contexto, este
trabalho tem como objetivo fornecer um sistema inteligente baseado em aprendizagem de máquina
que permita verificar e classificar os dados do CAR em aprovados ou cancelados de maneira rápida
e eficaz. O método proposto consiste do pré-processamento, passando da avaliação das variáveis
contidas na base de dados ao tratamento do desbalanceamento entre as classes utilizando a técnica
de oversampling SMOTE. Após o pré-processamento, foram desenvolvidos modelos de
aprendizagem de máquina para avaliação dos resultados, juntamente com um algoritmo de
interpretação para avaliar quais variáveis mais impactaram na classificação. Resultados preliminares
mostraram potencial do método em prosseguir no uso de aprendizagem de máquina para a tarefa
de classificação dos dados do CAR, permitindo, também, uma visualização de como cada variável
influencia na decisão do algoritmo.