Extração de Entidades de Produtos Utilizando Técnicas Few-shot Learning
E-commerce, Processamento de Linguagem Natural, Aprendizado de Máquina, Redes Neurais Artificiais, Few-Shot Learning.
As plataformas de comércio eletrônico recebem diariamente milhares de produtos pertencentes a classes novas que não participaram do processo de treinamento do algoritmo. O re-treinamento com estas classes novas é uma necessidade, pois a categorização incorreta de produtos nos marketplaces, pode levar o consumidor a experiências desagradáveis no processo de compra. Porém, é difícil a constante atualização do sistema com estes produtos, pois o custo de re-treinamento dos classificadores atualmente em operação é elevado devido à grande dimensão da base de dados. A proposta apresentada neste trabalho é a utilização de extratores de entidades de produtos que utilizam algoritmos do tipo few-shot learning, que são capazes de ser treinados com uma ou com poucas amostras por classes. Este possui treinamento rápido e necessita de base de dados em dimensão reduzida. Dentre os algoritmos que serão testados pode-se citar, k-vizinhos mais próximos (KNN) e as redes Matching Networks (MN). O KNN foi o primeiro a ser testado e será utilizado como baseline do projeto, e apesar da simplicidade e não necessidade de treinamento apresentou um resultado interessante com 95,80 % de acurácia. Também foi apresentado o resultado das redes matching com 96,85 % de acurácia. Ambos os algoritmos foram testados com validação cruzada do tipo leave one out. Também foi realizada a seleção das melhores características da base possibilitando a redução de dimensão das mesmas, de modo que além da redução de custo computacional, apresentou como vantagem facilitar o treinamento das redes neurais few-shot learning. A abordagem proposta de extração de entidades novas trará como contribuição a correta categorização e a manutenção da acurácia exigida em marketplaces, sem a necessidade do re-treinamento constante dos classificadores atualmente em operação. Isso pode trazer uma redução significativa de custo de uso do servidor em nuvem e melhores experiências de compras para os clientes.