Análise de Casos de Câncer de Tireoide

Um Estudo de Coorte Retrospectivo


Beatriz Lima Silveira
Esley Caminhas Ferreira

Universidade Federal do Espírito Santo


Tópicos


  • Introdução
  • Banco de dados
  • Descrição da coorte
  • Modelo Logístico
  • Resultados e interpretações
  • Conclusões

Introdução


  • Câncer de tireoide: crescimento anormal das células da tireoide, afeta metabolismo, frequência cardíaca e pressão arterial; é raro, mas o mais comum do sistema endócrino.

  • Estudo: coorte em Hamadan com 383 pacientes diagnosticados.

  • Dados coletados:

    • Perfil pré-doença: gênero, idade, tabagismo.

    • Estado da doença: patologia, foco e tamanho do tumor.

    • Resposta: tratamento e recorrência.

  • Análise: métodos estatísticos para dados categóricos e descrição básica.

  • Objetivo do modelo de regressão: identificar fatores associados à recorrência em pacientes curados.

Banco de dados


Foi coletado dos 383 individuos, 17 variáviaveis sendo 16 de carater categórico e uma númerica.

  1. Faixa Etária (faixa_etaria)
    O dado de idade foi registrado pontualmente, mas para fim de organização neste trabalho adotaremos faixas etárias:
    • Adolescente: Idade entre 14 e 19 anos.
    • Jovem Adulto: Idade entre 20 e 34 anos.
    • Adulto: Idade entre 35 e 59 anos.
    • Idoso: Idade a partir de 60 anos.
  2. Gênero (genero)
    Gênero do paciente:
    • Mulher: Pacientes do sexo feminino.
    • Homem: Pacientes do sexo masculino.
  3. Fumante (fumante)
    Se o paciente é fumante no momento do diagnóstico (não inclui ex-fumantes):
    • Não: Pacientes que não fumam.
    • Sim: Pacientes que fumam.
  4. Histórico de Fumo (historico_fumante)
    Se o paciente já foi fumante por um período longo (inclui fumantes atuais e ex-fumantes):
    • Não: Pacientes sem histórico de tabagismo.
    • Sim: Pacientes com histórico de tabagismo.

Banco de dados


  1. Histórico de Radioterapia (historico_radioterapia)
    Se a pessoa já fez tratamento de radioterapia:
    • Não: Pacientes sem histórico de radioterapia.
    • Sim: Pacientes com histórico de radioterapia.
  2. Função da Glândula Tireoide (quadro_tireoide)
    Estado da função da tireoide:
    • Eutireoide: Função normal.
    • Hipertireoidismo Clínico.
    • Hipotireoidismo Clínico.
    • Hipertireoidismo Subclínico.
    • Hipotireoidismo Subclínico.
  3. Risco (risco)
    Classificação de risco de progressão ou recidiva com base em exames médicos:
    • Baixo.
    • Alto.
  4. Exame Físico (exame_fisico)
    Presença de bócio (aumento anormal da tireoide):
    • Bócio nodular único à esquerda.
    • Bócio nodular único à direita.
    • Bócio multinodular.
    • Bócio difuso.

Banco de dados


  1. Adenopatia (adenopatia)
    Aumento dos gânglios linfáticos (pode indicar metástase linfática):
    • Não: Sem adenopatia.
    • Direita.
    • Extensivo.
    • Esquerda.
    • Bilateral.
    • Posterior.
  2. Patologia (patologia)
    Tipo de câncer:
    • Micropapilar.
    • Papilar.
    • Folicular.
    • Células de Hurthle.
  3. Foco (foco)
    Quantidade de tumores:
    • Unifocal: Tumor único.
    • Multifocal: Múltiplos tumores.
  4. T – Tamanho do Tumor Primário (T)
    • TX: Não pode ser avaliado.
    • T0: Sem evidência de tumor primário.
    • T1, T2, T3, T4: Indicadores de tamanho/extensão.

Banco de dados


  1. N – Envolvimento dos Linfonodos Regionais (N)
    • NX: Não pode ser avaliado.
    • N1, N2, N3: Grau de envolvimento (N1 menos extenso, N3 mais extenso).
  2. M – Metástases à Distância (M)
    • MX: Não pode ser avaliado.
    • M0: Sem metástases.
    • M1: Com metástases.
  3. Estágio (estagio)
    Extensão do câncer (definido pelo sistema TNM):
    • I
    • II
    • III
    • IV
  4. Resposta ao Tratamento (resposta_tratamento)
    Avaliação da resposta terapêutica:
    • Indeterminado.
    • Excelente.
    • Estrutura incompleta.
    • Bioquímica incompleta.
  5. Recorrência (recorrencia)
    Se houve nova ocorrência do câncer:
    • Não.
    • Sim.

Descrição da Coorte

Perfil pré diagnóstico e grupo de risco


Testes de Indepedência

Caracteristica Baixo Alto p_value
faixa_etaria <0.001
Adolescente 3 (1.2%) 4 (3.0%)
Jovem Adulto 115 (46%) 42 (31%)
Adulto 108 (43%) 53 (40%)
Idoso 23 (9.2%) 35 (26%)
genero <0.001
Homem 27 (11%) 44 (33%)
Mulher 222 (89%) 90 (67%)
fumante <0.001
Não 234 (94%) 100 (75%)
Sim 15 (6.0%) 34 (25%)
Caracteristica Baixo Alto p_value
12 historico_fumante <0.13
13 Não 235 (94%) 120 (90%)
14 Sim 14 (5.6%) 14 (10%)
15 historico_radioterapia <0.008
16 Não 248 (100%) 128 (96%)
17 Sim 1 (0.4%) 6 (4.5%)
18 quadro_tireoide <0.079
19 Eutireoide 216 (87%) 116 (87%)
20 Hipertireoidismo Clínico 14 (5.6%) 6 (4.5%)
21 Hipertireoidismo Subclínico 5 (2.0%) 0 (0%)
22 Hipotireoidismo Clínico 9 (3.6%) 3 (2.2%)
23 Hipotireoidismo Subclínico 5 (2.0%) 9 (6.7%)

Descrição da Coorte

Perfil pré diagnóstico e grupo de risco


Medidas de Associação

Medida Niveis
Coeficiente Phi 0 : Nenhuma
0.1 - 0.3 : Fraca
0.3 - 0.5 : Moderada
> 0.5 : Forte
Coeficiente de Contingência 0 : Nenhuma
0.1 - 0.2 : Fraca
0.2 - 0.4 : Moderada
> 0.4 : Forte
V de Cramer 0 : Nenhuma
0.1 - 0.2 : Fraca
0.2 - 0.4 : Moderada
> 0.4 : Forte
Variavel Coef_Phi Coef_Contingencia V_Cramer
faixa_etaria Não aplicável Fraca Moderada
gênero Fraca Fraca Fraca
fumante Fraca Fraca Fraca
histórico_radioterapia Fraca Fraca Fraca

Descrição da Coorte

Perfil pré diagnóstico e histórico médico com incidência de reocorência


Distribuição das características de perfil pré diagnótico por reocorrência

Descrição da Coorte

Perfil pré diagnóstico e histórico médico com incidência de reocorência


Distribuição de caracteristicas clínicas por reocorrência

Descrição da Coorte

Perfil pré diagnóstico e histórico médico com incidência de reocorência


Distribuição de patologia para reocorrência

Descrição da Coorte

Perfil pré diagnóstico e histórico médico com incidência de reocorência


Distribuição de estagio por reocorrência

Descrição da Coorte

Perfil pré diagnóstico e histórico médico com incidência de reocorência


Distribuição de histórico de radioterapia por reocorrência

Descrição da Coorte

Perfil pré diagnóstico e histórico médico com incidência de reocorência


Distribuição de reocorrênica para as demais váriaveis

Descrição da Coorte

Perfil pré diagnóstico e histórico médico com incidência de reocorência


Medidas de associação

Variavel Coef_Phi Coef_Contingencia V_Cramer
faixa_etaria Não aplicável Moderada Moderada
genero Forte Moderada Forte
fumante Forte Forte Forte
historico_fumante Fraca Fraca Fraca
historico_radioterapia Fraca Fraca Fraca
quadro_tireoide Não aplicável Nenhuma Nenhuma
exame_fisico Não aplicável Fraca Fraca
adenopatia Não aplicável Forte Forte
estagio Não aplicável Nenhuma Nenhuma
patologia Não aplicável Moderada Moderada
foco Moderada Moderada Moderada
risco Forte Forte Forte
resposta_tratamento Não aplicável Forte Forte
T Não aplicável Moderada Moderada
N Forte Moderada Forte
M Moderada Moderada Moderada

Modelo Logístico

Definição


A fórmula geral do modelo logístico é:

\[ \text{logit}\big(P(Y=1 \mid X_1, X_2, \dots, X_k)\big) = \ln\frac{P(Y=1 \mid X_1, \dots, X_k)}{1 - P(Y=1 \mid X_1, \dots, X_k)} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k \]

Onde:

  • \(P(Y=1 \mid X_1, X_2, \dots, X_k)\) é a probabilidade de ocorrência do evento (Y = 1) dado os preditores \(X_1, X_2, \dots, X_k\);

  • \(beta_0\) é o intercepto do modelo;

  • \(beta_1, \dots, \beta_k\) são os coeficientes associados aos preditores \(X_1, \dots, X_k\).

Regularização Lasso

Seleção de variáveis


Quando a variável resposta (Y) é binária, podemos aplicar o Lasso à regressão logística para selecionar variáveis.

O modelo logístico regularizado com Lasso minimiza a função de perda penalizada:

\[ \hat{\beta}^{\text{Lasso}} = \arg \min_{\beta} \Bigg\{ - \sum_{i=1}^{n} \Big[ y_i \ln \hat{p}_i + (1 - y_i) \ln (1 - \hat{p}_i) \Big] + \lambda \sum_{j=1}^{p} |\beta_j| \Bigg\} \]

onde:

\[ \hat{p}_i = P(Y_i = 1 \mid X_i) = \frac{1}{1 + \exp[-(\beta_0 + \sum_{j=1}^{p} \beta_j x_{ij})]}. \]

Regularização Elastic Net

Seleção de variáveis


O Elastic Net é uma técnica de regularização que combina as penalidades Lasso (L1) e Ridge (L2), aproveitando os benefícios de ambas: seleção de variáveis e estabilidade em presença de multicolinearidade.

O Elastic Net minimiza a seguinte função de perda penalizada:

\[ \hat{\boldsymbol{\beta}}^{\text{Elastic Net}} = \arg\min_{\boldsymbol{\beta}} \Bigg\{ \sum_{i=1}^n \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2 + \lambda \Big[ \alpha \sum_{j=1}^p |\beta_j| + \frac{1}{2}(1 - \alpha) \sum_{j=1}^p \beta_j^2 \Big] \Bigg\} \]

  • \(y_i\) é a variável resposta;
  • \(x_{ij}\) são os preditores, geralmente padronizados (\(tilde{x}_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j}\)) para que a penalização seja aplicada de forma equilibrada;
  • \(\beta_j\) são os coeficientes a serem estimados;
  • \(\lambda \ge 0\) controla a intensidade total da penalização;
  • \(\alpha \in [0,1]\) define a proporção entre as penalidades L1 (Lasso) e L2 (Ridge)

Separação completa/quase-completa

Solução de Firth


  • Separação completa/quase-completa: ocorre quando uma combinação de preditores separa perfeitamente (ou quase) os dois desfechos

  • Problema: os coeficientes ML tendem a \(\pm \infty\), erros padrão explodem, tornando inferências não confiáveis.

Solução de Firth (1993):

Penalização da função de verossimilhança:

\[ L^*(\boldsymbol{\beta}) = L(\boldsymbol{\beta}) \left| \mathbf{I}(\boldsymbol{\beta}) \right|^{1/2} \]

  • Regulariza a estimação, evitando coeficientes infinitos;

  • Atua como um “prior implícito” puxando estimativas para zero;

  • Produz sempre estimativas finitas, mesmo em separação completa;

  • Reduz viés em amostras pequenas e melhora propriedades assintóticas.

Resultados


Modelo Logístico (Parte 1)
Variavel OR IC_inf IC_sup
T1 (ref.) 1 - -
T2 0.37 0.034 7.15
T3 0.50 0.033 8.61
T4 2.79 0.0023 363.62
N0 (ref.) 1 - -
N1 3.87 0.43 36.58
Homem (ref.) 1 - -
Mulher 0.35 0.061 2.09
Eutireoide (ref.) 1 - -
Hipertireoidismo Clínico 0.25 0.006 6.29
Hipertireoidismo Subclínico 8.51 0.046 502.68
Hipotireoidismo Clínico 2.72 0.015 51.93
Hipotireoidismo Subclínico 0.17 0.00065 5.71
Modelo Logístico (Parte 2)
Variavel OR IC_inf IC_sup
14 Ausente (ref.) 1 - -
15 Presente 0.93 0.14 7.01
16 Células de Hurthle (ref.) 1 - -
17 Folicular 8.27 0.23 1155.65
18 Micropapilar 3.46 0.011 868.63
19 Papilar 6.13 0.30 585.78
20 Alto (ref.) 1 - -
21 Baixo 0.26 0.031 1.83
22 Bioquímica incompleta (ref.) 1 - -
23 Estrutura incompleta 15.26 2.34 168.82
24 Excelente 0.04 0.0023 0.25
25 Indeterminado 0.19 0.023 0.93
26 I (ref.) 1 - -
27 Acima de I 4.23 0.49 127.03

Resultados


Resultados


Conclusão


  • Modelo estatisticamente significativo (Likelihood ratio test = 237.2257, \(p < 0.001\)).

  • Variáveis preditoras significativas:

    • Estrutura incompleta: aumento do risco de recorrência (\(\beta\) = 2.725, p = 0.003).

    • Excelente: efeito protetor, menor risco de recorrência (\(\beta\) = -3.227, p = 0.0004).

    • Indeterminado: efeito protetor (\(\beta\) = -1.686, p = 0.041).

  • Outras variáveis clínicas e patológicas: Não significativas após ajuste.

  • Método de Firth: Adequado para lidar com separação completa ou quase-completa, garantindo estimativas estáveis e finitas.

  • Implicações clínicas: A resposta ao tratamento pode ser um marcador prognóstico central, integrando informações de múltiplos fatores em uma única medida.

  • Sugestão para estudos futuros: Investigar interações entre a resposta ao tratamento e outros fatores prognósticos em amostras maiores.

Fim!