Desenvolvimento de Modelos de Linguagem na Extração de Aspectos em Língua Portuguesa
Extração de Aspectos, BERT, LoRa
A identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. Modelos baseados na arquitetura BERT, abrangendo embeddings duplos, de domínio específico a tarefa e otimizações com técnicas como LoRa, foram avaliados, sendo que os BERTs de domínio específico foram pré-treinados para o desenvolvimento desse trabalho. Além disso, investigamos variantes do GPT adaptadas através da API da OpenAI. O modelo adotado como referência desse trabalho é o BERT de domínio geral (BERTimbau) e a métrica de avaliação é o F1. Os modelos ajustados usando BERT de domínio específico (BERTvisio para domínio de revisões de TV e LiteraBERT para o domínio de resenhas literárias) e o ajuste com LoRa usando o BERTimbau não superaram o modelo de referência para ambos os conjuntos de dados. Os modelos de embedding duplo unindo BERTvisio e BERTimbau para o ajuste no conjunto TV se equiparam ao modelo de referência. Enquanto que, os modelos que unem LiteraBERT e BERTimbau se mostraram inferiores ao modelo de referência. Os modelos GPT ajustados demonstraram eficácia equiparável ao modelo de referência para o conjunto TV, evidenciando a flexibilidade e potencial da abordagem conversacional. Contudo, para o conjunto ReLi, não foi possível o ajuste do modelo, evidenciando que sua eficácia depende substancialmente da representatividade dos prompts fornecidos. Este trabalho destaca a importância da escolha e adaptação apropriada dos modelos em relação às peculiaridades dos conjuntos de dados. A eficácia das abordagens variam, enfatizando a necessidade de uma avaliação rigorosa e uma combinação estratégica de técnicas para alcançar a melhor performance possível em tarefas específicas de extração de aspectos.