Classificação de Gêneros e Faixas Etárias em Redes Sociais Online por meio de Técnicas de Aprendizagem Multidimensional
Classificação de gêneros. Classificação de faixas etárias. Métodos de transformação. Aprendizagem multidimensional. Classificação multidimensional.
Devido ao grande volume de conteúdo gerado por usuários nas Redes Sociais Online (RSO), as organizações têm aplicando técnicas de análise de sentimento ou de mineração de opinião para obter informações sobre pessoas ou entidades de interesse. Uma entidade pode ser produtos, serviços, pessoas, instituições governamentais e não-governamentais, políticas públicas, entre outros tipos. A classificação de faixas etárias e gêneros dá suporte a análise de sentimento e de opinião, pois auxiliam na obtenção de um sentimento ou uma opinião mais precisa. Entretanto, informações sobre gênero e faixa etária podem estar ocultas ou preenchidas erroneamente nas RSO. Na literatura, várias abordagens são utilizadas com o intuito de efetuar a classificação de gêneros e faixas etárias. Porém, neste trabalho um novo conjunto de características é utilizado para classificação de gênero e faixa etária, por meio de uma aprendizagem multidimensional. Assim, o objetivo principal deste trabalho é desenvolver um novo modelo de classificação com dados extraídos da RSO \textit{Twitter}, usando os métodos de transformação \textit{Classifier Chains (CC)} e \textit{Label Powerset (LP)}, e atráves de técnicas de aprendizagem de máquina baseados em regras, álgebra linear e probabilidade. Para fornecimento dos dados de análise, este estudo trabalha com uma nova base de dados contendo 8000 instâncias extraídas do Twitter. Os melhores subconjuntos de características de perfis de usuários são avaliados, assim como os modelos de aprendizagem multidimensional utilizando diferentes métricas de desempenho. Por meio dos experimentos obteve-se um modelo de classificação multidimensional na fase de teste, com os seguintes resultados: 0,961 de Macro-média F1; 0,956 de Micro-média F1; e 0,039 de Hamming Loss. Tais resultados superam aos obtidos pelos trabalhos relacionados.