Modelos de regressão distribucional aplicados à análise de dados esportivos
esportes, futebol, GAMLSS, jogos
A ciência dos esportes tem se consolidado como um campo de pesquisa interdisciplinar, no qual a modelagem estatística desempenha um papel central em áreas como a análise de desempenho atlético, prevenção de lesões, otimização tática e apoio à tomada de decisões estratégicas. Embora métodos tradicionais, como a regressão linear e os modelos lineares generalizados, ainda sejam amplamente utilizados, suas limitações diante de estruturas de dados complexas têm impulsionado o uso de abordagens estatísticas mais flexíveis. Nesse contexto, os modelos de regressão distribucional, inicialmente definidos como modelos aditivos generalizados para locação, escala e forma (do inglês Generalised Additive Models for Location, Scale, and Shape – GAMLSS), representam, possivelmente, a estrutura de modelagem estatística mais flexível atualmente disponível. Capazes de modelar simultaneamente múltiplos parâmetros da distribuição assumida para a resposta (como média, dispersão, assimetria e curtose), os GAMLSS são capazes de capturar tanto relações lineares quanto não-lineares (por meio de funções de suavização) entre as variáveis explicativas e os parâmetros da distribuição, adaptando-se com maior precisão à complexidade dos dados. Esta tese tem como objetivo investigar o potencial dos GAMLSS como ferramenta estatística no contexto esportivo, por meio de uma combinação entre revisão sistemática, aplicações empíricas e desenvolvimento teórico e computacional de abordagens específicas para a modelagem de dados discretos. Os resultados obtidos até o momento, a partir dos dois primeiros artigos, demonstram que os GAMLSS constituem uma abordagem promissora para a modelagem estatística no esporte. A revisão sistemática da literatura evidenciou a aplicação bem-sucedida desses modelos em diversas áreas, mas revelou uma forte predominância de variáveis contínuas, apontando uma lacuna na modelagem de variáveis discretas. A aplicação em dados do futebol, no segundo artigo, demonstrou a capacidade dos GAMLSS de identificar fatores que influenciam tanto a tendência central quanto a dispersão na taxa de pontos obtidos por clubes no futebol sul-americano. Como próxima etapa da pesquisa, propõe-se o desenvolvimento de novas distribuições discretas, oferecendo uma contribuição inédita de natureza teórica e computacional. Essas distribuições serão integradas à estrutura dos GAMLSS, ampliando sua aplicabilidade à modelagem de dados discretos no contexto esportivo.