Notícias

Banca de DEFESA: PRISCILLA DE SOUZA SILVA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: PRISCILLA DE SOUZA SILVA
DATA: 25/11/2022
HORA: 10:00
LOCAL: Online https://meet.google.com/ory-jjtd-buk
TÍTULO:

ROTULAÇÃO DE DADOS PARA A TAREFA DE RECONHECIMENTO DE ENTIDADES NOMEADAS NO DOMÍNIO DA BEBIDA CACHAÇA


PALAVRAS-CHAVES:

Reconhecimento de Entidades Nomeadas

Cachaça

Aprendizagem de Máquina

Processamento de Linguagem Natural


PÁGINAS: 114
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
ESPECIALIDADE: Banco de Dados
RESUMO:

O Reconhecimento de Entidade Nomeada (NER) é a tarefa de identificar e classificar tokens em textos correspondentes a um conjunto de categorias pré-definidas, como nomes de pessoas, organizações e locais. Conjuntos de dados rotulados para essa tarefa são essenciais para treinar modelos de aprendizagem de máquina supervisionados. Apesar de existirem muitos conjuntos de dados rotulados com textos para a língua inglesa, na língua portuguesa eles são mais escassos. Este trabalho, portanto, contribui para a criação e avaliação de um conjunto de dados rotulados manualmente para a tarefa de NER, com textos escritos em português brasileiro, no domínio específico da bebida destilada chamada Cachaça. Essa é uma bebida popular no Brasil, e de grande importância econômica. Esse é o primeiro conjunto de dados NER no domínio de bebidas e pode ser útil para outros tipos de bebidas com categorias de entidades semelhantes, como vinho e cerveja. Descreve-se o processo de coleta de dados textuais, criação do conjunto de dados, chamado de cachacaNER, e sua avaliação experimental. Como resultado, foi criado um dataset contendo mais de 180.000 tokens rotulados em 17 categorias de entidades nomeadas especificas ao contexto da cachaça e categorias genéricas. A rotulagem obteve um alto valor de concordância entre os rotuladores, segundo a métrica Kappa de Fleiss. O tamanho do conjunto de dados, bem como o resultado de sua avaliação experimental, são comparáveis a outros conjuntos de dados em língua portuguesa, embora o deste trabalho tenha um número maior de categorias de entidades. Além da rotulação manual, também foi avaliada uma técnica de rotulação automática de entidades, com os dados do cachacaNER, a fim de propor uma rotulação mais rápida, com pouco trabalho manual. Como resultado, identificou-se que conjuntos de treinamento rotulados automaticamente a partir de exemplos de entidades nomeadas podem conduzir a um treinamento aceitável pra um modelo NER, considerando-se o custo da rotulação manual.


MEMBROS DA BANCA:
Externo ao Programa - MOZAR JOSE DE BRITO - DAE/FCSA (Membro)
Interno - LUIZ HENRIQUE DE CAMPOS MERSCHMANN (Membro)
Interno - ERIC FERNANDES DE MELLO ARAUJO (Suplente)
Presidente - DENILSON ALVES PEREIRA (Membro)
Externo à Instituição - DANIEL HASAN DALIP - CEFET/MG (Membro)
Externo à Instituição - ANDERSON ALMEIDA FERREIRA - UFOP (Suplente)
Notícia cadastrada em: 23/11/2022 10:02
SIGAA | DGTI - Diretoria de Gestão de Tecnologia da Informação - Contatos (abre nova janela): https://ufla.br/contato | © UFLA | appserver2.srv2inst1 05/05/2024 23:09