Classificação automática de dados do Cadastro Ambiental Rural utilizando algoritmos de Aprendizagem de Máquina
Cadastro Ambiental Rural, Classificação de dados, Desbalanceamento de classes, Aprendizagem de Máquina Interpretável, Ciência de dados
O Cadastro Ambiental Rural (CAR) consiste em um registro público eletrônico obrigatório para todos os imóveis rurais do território brasileiro, integra informações ambientais das propriedades, auxilia o monitoramento das mesmas e no combate ao desmatamento.Entretanto, um grande número de cadastros é realizado de maneira errônea gerando dados inconsistentes, levando estes a serem cancelados e/ou a serem pedidas retificações para o devido preenchimento do cadastro. Realizar essas verificações de forma manual é deveras oneroso, uma vez que é requerida uma mão de obra especializada e o Brasil possui uma imensa quantidade de imóveis rurais. Neste contexto, este trabalho tem como objetivo fornecer um sistema inteligente baseado em aprendizagem de máquina que permita verificar e classificar os dados do CAR em aprovados ou cancelados de maneira rápida e
eficaz. O método proposto consiste do pré-processamento, passando da avaliação das variáveis contidas na base de dados ao tratamento do desbalanceamento entre as classes utilizando técnica deoversamplingpara geração de dados sintéticos e balanceamento das classes para treinamento dos classificadores. Após o pré-processamento, foram desenvolvidos quatro modelos de aprendizagem de máquina para avaliação dos resultados. Seguinte a avaliação dos classificadores, foi utilizado um algoritmo de interpretação para avaliar quais variáveis mais impactaram na classificação e como impactam. Resultados preliminares mostraram potencial do método em prosseguir no uso de aprendizagem de máquina para a tarefa de classificação dos dados do CAR, permitindo, também, uma visualização de como cada variável influência na decisão do algoritmo classificador.