Predição e Interpretabilidade na Análise de Sobrevivência do Câncer de Mama por Modelos Clássicos e de Aprendizado de Máquina
sobrevida, carcinoma mamário, modelo de Cox, aprendizado de máquina, autoSurv.
O presente estudo emprega métodos de análise de sobrevivência, contemplando tanto o modelo tradicional de Regressão de Cox quanto técnicas de aprendizado de máquina. Para isso, foi utilizado um banco de dados extraído do Registro Hospitalar de Câncer do Estado de São Paulo (RHC-SP), sendo a amostra final composta por 1.515 mulheres diagnosticadas com carcinoma mamário entre 2020 e 2024, a qual serviu de base para os dois artigos que compõem este trabalho. O primeiro artigo apresenta um modelo de Regressão de Cox com penalização LASSO. A violação do pressuposto de riscos proporcionais, avaliada por meio dos resíduos de Schoenfeld, motivou a utilização da técnica de time-splitting, particionando-se a distribuição dos eventos em três períodos definidos pelos seus tercis. A capacidade discriminativa do modelo foi avaliada pelo índice de concordância de Harrell. As pacientes que realizaram cirurgia (HR = 0,54; p < 0,001) e hormonioterapia (HR = 0,41; p < 0,001) apresentaram forte efeito protetor no primeiro período, entretanto, os efeitos dessas variáveis foram atenuados no segundo período e deixaram de ser significativos no terceiro. O efeito do aumento do número de metástases foi significativo em todos os períodos (HR = 1,19; 1,36 e 1,36; p < 0,01), assim como a ocorrência de recidiva à distância (HR = 2,29; 1,80 e 2,07; p < 0,05). Por outro lado, a ocorrência de recidiva local esteve associada ao aumento do risco apenas no segundo período (HR = 1,43; p = 0,030). O modelo final apresentou índice de concordância de 0,65, indicando capacidade discriminativa moderada. O segundo artigo contempla modelos de sobrevivência no contexto do aprendizado de máquina. O objetivo é comparar os algoritmos Random Survival Forest, no contexto de tempo contínuo, e Conditional Inference Forest, Support Vector Machine, Gradient Boosting Machine e Redes Neurais Artificiais, no contexto de tempo discreto. Essa comparação será viabilizada pelo pacote autoSurv do R, que permite a discretização do tempo para os algoritmos mencionados. O desempenho e a comparação entre os modelos serão avaliados por meio do Brier Score. Considerando que o câncer de mama figura entre as neoplasias de maior mortalidade entre as mulheres no Brasil e no mundo, a identificação dos fatores associados à sobrevida e a avaliação da doença sob a perspectiva da predição da sobrevivência de pacientes com carcinoma mamário constituem contribuições relevantes para o aprimoramento das estratégias de prognóstico e da tomada de decisão clínica, reforçando a importância desta pesquisa.