Avaliação de Modelos de Linguagem para Criação de Chatbots para a Comunicação com Pessoas Surdas que usam o Português como Segunda Língua
LLMs; GLOSA; LIBRAS; chatbots; acessibilidade
Modelos de linguagem de grande porte (LLMs) têm se consolidado como ferramentas poderosas para processamento de linguagem natural, mas seu desempenho ainda apresenta desafios quando aplicados a variantes linguísticas pouco representadas. A GLOSA — representação textual que reflete a estrutura sintática da LIBRAS — oferece um meio controlado para estudar como modelos lidam com construções linguísticas próximas da comunicação escrita de pessoas surdas, que frequentemente utilizam o Português como segunda língua. Este trabalho investigou a capacidade de adaptação de LLMs à GLOSA, com o objetivo de subsidiar o desenvolvimento de chatbots mais acessíveis à comunidade surda. Foram conduzidos experimentos comparativos envolvendo múltiplas arquiteturas abertas, de diferentes portes, avaliadas em cenários multilíngues (Inglês, Português, GLOSA e dados mistos). Duas estratégias de fine-tuning foram aplicadas a modelos pré-treinados, utilizando bases de dados construídos para refletir estruturas sintáticas reais da GLOSA. Os resultados confirmam perdas de desempenho ao migrar do Inglês para o Português e, principalmente, para a GLOSA, padrão já observado em estudos multilíngues. Contudo, o fine-tuning direcionado aumentou a interpretabilidade dos modelos, especialmente em arquiteturas maiores e com pré-treinamento multilíngue robusto, como Phi-4-14B e Qwen2.5-14B. Observou-se, porém, que ajustes excessivos ou desalinhados podem causar sobreajuste ou queda de acurácia, evidenciando a necessidade de controle rigoroso no processo de adaptação. Este estudo oferece três contribuições principais: (i) um conjunto inédito de dados em GLOSA e Português; (ii) um pipeline experimental reprodutível para avaliação de LLMs em cenários linguísticos não convencionais; e (iii) recomendações práticas para o ajuste de modelos em aplicações voltadas à acessibilidade.