APLICAÇÃO DE ALGORITMOS DE APRENDIZAGEM DE MÁQUINA NA IDENTIFICAÇÃO DE REGISTROS ESPÚRIOS
NO CADASTRO AMBIENTAL RURAL
Cadastro Ambiental Rural, Classificação de dados, Desbalanceamento de classes, Aprendizagem de Máquina Interpretável, Ciência de dados
O Cadastro Ambiental Rural (CAR) consiste em um registro público eletrônico obrigatório para todos os imóveis rurais do território brasileiro, integra informações ambientais das propriedades, auxiliando no monitoramento ambiental e contribui em ações de combate ao desmatamento. Entretanto, um grande número de cadastros
é realizado de maneira errônea gerando dados inconsistentes, levando estes a serem cancelados e/ou a serem pedidas retificações para o devido preenchimento do cadastro. Realizar estas análises, identificando os cadastros preenchidos de maneira incorreta (espúrios) manualmente, possui um grande custo, dada a necessidade de
mão de obra e demandaria um grande período de tempo, dada a imensa quantidade de imóveis rurais no Brasil. Neste contexto, este trabalho tem como objetivo fornecer um sistema inteligente baseado em aprendizagem de máquina que permita verificar e classificar os registros do CAR em aprovados ou cancelados de maneira rápida e eficaz. O método proposto passa por diversas etapas do processo de mineração de dados. Passando pelo pré-processamento, onde foram avaliação as variáveis contidas na base de dados, seguida pela seleção dos atributos mais importantes para a classificação dos registros. Após a decisão do melhor conjunto de atributos, foi realizado um tratamento do desbalanceamento entre as classes utilizando técnicas de oversampling para geração de dados sintéticos e balanceamento das classes para o treinamento dos classificadores. Finalizadas as análises de pré-processamento, foram aplicados 6 modelos classificação e avaliados seus resultados de acordo com cada formato de pré-processamento. Seguinte a avaliação dos classificadores, foram utilizados algoritmos de interpretação para avaliar quais variáveis mais impactaram na classificação e como impactam. Os resultados preditivos mostram índices de desepenho em classificação acima de 90% para todas as medidas de avaliação
utilizadas no conjunto de validação e as interpretações elencaram as variáveis que mais influenciam na classificação automática.