UMA ABORDAGEM DE AUTO-ML PARA ANÁLISE DE SENTIMENTOS NA LÍNGUA PORTUGUESA
Auto-ML; Análise de sentimentos; Processamento de linguagem natural.
A análise de sentimentos é uma área em ascensão tanto no meio acadêmico quanto comercial. Ela é um tipo de extração de conhecimento a partir de dados que faz uso de diversas tarefas de processamento de linguagem natural e de técnicas de mineração de dados para obter seus resultados. Encontrar a melhor combinação dessas tarefas para uma determinada base de dados não é uma tarefa trivial, dado que pode existir uma grande quantidade de combinações a serem avaliadas. Além disso, a avaliação de cada combinação pode requerer um grande poder computacional que pode restringir a quantidade de avaliações possíveis. Sendo assim, este trabalho inicialmente apresenta uma avaliação da combinação de cinco tarefas de pré-processamento e três classificadores considerando a tarefa de análise de sentimentos de textos da língua portuguesa. Os resultados dessa avaliação mostram que diferentes combinações podem afetar significativamente o desempenho preditivo obtido em uma base de dados. Isso deixa claro a importância de executar a avaliação conjunta de tarefas de pré-processamento com classificadores ao escolher quais tarefas de pré-processamento e classificador devem ser usados para uma base de dados. Desse modo, este trabalho também propõe uma abordagem de Aprendizado de Máquina Automatizado (Automated Machine Learning – Auto-ML) para buscar uma boa combinação de classificador com técnicas de pré-processamento de textos (associadas com tarefas de processamento de linguagem natural) sem a necessidade de avaliar todas combinações possíveis. A abordagem proposta utiliza algoritmos evolutivos e otimização Bayesiana em conjunto com a técnica de correção de viés Bootstrap Bias Corrected Cross-Validation (BBC-CV) para encontrar tal combinação. Essa abordagem, avaliada a partir de bases de dados com textos escritos em língua portuguesa, mostrou um desempenho tão bom quanto ou superior ao de outra ferramenta de Auto-ML.