UMA ABORDAGEM EM CASCATA PARA PREDIÇÃO DE FAIXA ETÁRIA DE AUTORES A PARTIR DOS SEUS TEXTOS
Caracterização Autoral, Faixa etária, Mineração de Textos.
Com a difusão do uso da internet, ferramentas de mineração de textos têm se tornado importantes para a estratégia de negócio das empresas. Ao mesmo tempo, o crescente volume de textos anônimos disponíveis na internet representa um desafio à obtenção de informações úteis, por exemplo, para modelos de personalização para comércio e marketing digital e em áreas como a forense digital. Na área de Caracterização Autoral — área que busca prever características sociais e demográficas de um grupo com base em seus textos —, embora haja um grande número de estudos, eles apresentam desigualdades quanto às características analisadas, à linguagem utilizada e às abordagens de classificação empregadas. Dessa forma, o presente trabalho busca propor e avaliar um metodo de classificação em cascata, que combina formas de classificação tradicional com um modelo baseado em di-
cionários, para predizer faixas etárias de autores com base em textos escritos na língua portuguesa. Os resultados encontrados mostram que o modelo baseado em dicionários em combinação com modelos tradicionais podem trazer melhoria na predição da faixa etária.