Extração de Entidades de Produtos Utilizando Técnicas Few-shot Learning
E-commerce, Processamento de Linguagem Natural, Aprendizado de Máquina, Redes Neurais Artificiais, Few-Shot Learning.
As plataformas de comércio eletrônico recebem diariamente milhares de produtos pertencentes a classes novas que não participaram do processo de treinamento do algoritmo. O retreinamento com estas classes novas é uma necessidade, pois a categorização incorreta de produtos nos marketplaces pode levar o consumidor a experiências desagradáveis no processo de compra.
Porém, é difícil a constante atualização do sistema com estes produtos, pois o custo de retreinamento dos classificadores atualmente em operação é elevado devido à grande dimensão das bases de dados.
A proposta apresentada neste trabalho é a utilização de extratores de entidades de produtos que utilizam algoritmos do tipo few-shot learning, que são capazes de serem treinados com uma ou com poucas amostras por classes. Estes possuem treinamento rápido e necessitam de base de dados em dimensão reduzida. Os algoritmos testados foram: k-vizinhos mais próximos (KNN), redes Matching Network (MN) e as redes DPGN (Distribuition Propagation Graph Network).
O KNN foi utilizado como baseline do projeto e, apesar da simplicidade e não necessidade de treinamento, apresentou resultado satisfatório. Também foi apresentado os resultados das redes matching e DPGN. As redes matching também foram implementadas com encoder contendo uma rede Bi-LSTM que recebeu dados em linguagem natural extraídos pelos algoritmos de embeddings word2vec e char, ao contrário dos outros algoritmos que foram testados utilizando dados previamente extraídos a partir do processo de transfer learning. Os algoritmos foram testados com validação cruzada do tipo leave one out e k-fold.
Também foi realizada a seleção das melhores características da base, possibilitando a redução de dimensão das mesmas, facilitando treinamento das redes neurais com few-shot learning. A abordagem proposta de extração de entidades novas trará como contribuição a correta categorização e a manutenção da acurácia exigida em marketplaces, sem a necessidade do retreinamento constante dos classificadores atualmente em operação. Isso pode trazer uma redução significativa de custo de uso do servidor em nuvem e melhores experiências de compras para os clientes.