ROTULAÇÃO DE DADOS PARA A TAREFA DE RECONHECIMENTO DE ENTIDADES NOMEADAS NO DOMÍNIO DA BEBIDA CACHAÇA
Reconhecimento de Entidades Nomeadas
Cachaça
Aprendizagem de Máquina
Processamento de Linguagem Natural
O Reconhecimento de Entidade Nomeada (NER) é a tarefa de identificar e classificar tokens em textos correspondentes a um conjunto de categorias pré-definidas, como nomes de pessoas, organizações e locais. Conjuntos de dados rotulados para essa tarefa são essenciais para treinar modelos de aprendizagem de máquina supervisionados. Apesar de existirem muitos conjuntos de dados rotulados com textos para a língua inglesa, na língua portuguesa eles são mais escassos. Este trabalho, portanto, contribui para a criação e avaliação de um conjunto de dados rotulados manualmente para a tarefa de NER, com textos escritos em português brasileiro, no domínio específico da bebida destilada chamada Cachaça. Essa é uma bebida popular no Brasil, e de grande importância econômica. Esse é o primeiro conjunto de dados NER no domínio de bebidas e pode ser útil para outros tipos de bebidas com categorias de entidades semelhantes, como vinho e cerveja. Descreve-se o processo de coleta de dados textuais, criação do conjunto de dados, chamado de cachacaNER, e sua avaliação experimental. Como resultado, foi criado um dataset contendo mais de 180.000 tokens rotulados em 17 categorias de entidades nomeadas especificas ao contexto da cachaça e categorias genéricas. A rotulagem obteve um alto valor de concordância entre os rotuladores, segundo a métrica Kappa de Fleiss. O tamanho do conjunto de dados, bem como o resultado de sua avaliação experimental, são comparáveis a outros conjuntos de dados em língua portuguesa, embora o deste trabalho tenha um número maior de categorias de entidades. Além da rotulação manual, também foi avaliada uma técnica de rotulação automática de entidades, com os dados do cachacaNER, a fim de propor uma rotulação mais rápida, com pouco trabalho manual. Como resultado, identificou-se que conjuntos de treinamento rotulados automaticamente a partir de exemplos de entidades nomeadas podem conduzir a um treinamento aceitável pra um modelo NER, considerando-se o custo da rotulação manual.