PROPOSTA DE UMA NOVA ABORDAGEM PARA PREDIÇÃO DE FAIXA ETÁRIA DE AUTORES A PARTIR DOS SEUS TEXTOS
Caracterização Autoral, Classificação Hierárquica, Faixa etária, Mineração de Textos, Inteligência Artifical.
Com a difusão do uso da internet, ferramentas de mineração de textos têm se tornado importantes para a estratégia de negócio das empresas. Ao mesmo tempo, o aumento dos textos anônimos e de leis que tratam sobre privacidade digital tornam-se um empecilho à obtenção de informações que possam ser usadas, por exemplo, para modelos de personalização para comércio e marketing digital e em áreas como a forense digital. Áreas como Caracterização Autoral, que buscam prever características sociais e demográficas a partir de dados textuais, podem ser uma alternativa para quando essas informações não estão disponíveis, para que ainda seja possível utilizar estratégias que dependem da disponibilidade desses atributos. Embora características como gênero sejam preditas com um acurácia satisfatória em grande parte dos trabalhos apresentados na literatura (chegando a 94%), para outras características, como a faixa etária dos autores, na maioria dos casos, os desempenhos preditivos são inferiores (trabalhos recentes conseguem até 67%, porém os resultados dependem muito do conjunto de dados utilizados, além do modelo). Além
disso, há uma desproporcionalidade dos idiomas dos textos utilizados nos modelos preditivos criados para essas predições. O presente trabalho propõe estratégias alternativas à classificação plana tradicional com objetivo de melhorar o desempenho da tarefa de predição da faixa etária de autores de textos escritos na língua portuguesa utilizando somente o conteúdo textual.