Artigo escrito com a colaboração de Rafael Toledo
É uma área da Estatística caracterizada por estudar o tempo até a ocorrência de um evento de interesse (falha). Desenvolveu-se justamente pelo avanço e aprimoramento das técnicas estatísticas.
Na área da saúde, há muitos estudos com aplicações de análise de sobrevivência devido a sua importância em estimar o tempo de vida de um paciente após o diagnóstico de uma doença. Além disso, é possível estudar o tempo até que o indivíduo possa experimentar o evento de interesse, podendo ser a cura ou recidiva de determinada doença.
Além da área da medicina, a análise de sobrevivência possui aplicações em outras áreas como: engenharia, ciências sociais, negócios e finanças.
Na engenharia estudam-se os produtos ou componentes sob teste para estimar características relacionadas aos seus tempos de vida, o que possibilita definir o planejamento de controle de qualidade, bem como o tempo de garantia/validade de diversos produtos. Denominam esta área de Confiabilidade, pois a interpretação dos resultados se dá através do risco e não do tempo de sobrevida.
Nas ciências sociais, criminalistas estudam o tempo entre a liberação de presos e a ocorrência de crimes, enquanto demógrafos utilizam esta análise para nascimentos, mortes, casamentos, divórcios e migrações. Já as instituições financeiras analisam o tempo até um cliente se tornar inadimplente.
Qual o objetivo?
O objetivo da análise de sobrevivência pode ser dividido em três:
- Estimar ou interpretar a função de sobrevivência.
- Comparar função de sobrevivência e/ou função risco.
- Avaliar a relação entre variáveis com o tempo de sobrevida.
Quais são as características dos dados de Sobrevivência ?

Os conjuntos de dados de sobrevivência são caracterizados pelos tempos de falha, e regularmente, pelas censuras. Tempos de falha e censura são os dois componentes que constituem a resposta.
Os elementos do tempo de falha são: tempo inicial, escala de medida e o evento de interesse. O tempo deve ser definido com clareza no início, pois o processo de acompanhamento dos estudos se dará a partir da definição desse tempo, inclusive a escala de medida (dias, meses, anos). Os eventos são denominados evento de interesse. Por exemplo, o tempo até a ocorrência da morte do paciente ou falha de um produto eletrônico.
Agora que o tempo de falha e os seus respectivos elementos foram explicados, é necessário entender outro componente dos dados de sobrevivência: a censura.
A censura é determinada pela presença de observações incompletas ou parciais, sendo que o motivo do surgimento de censura pode ser por várias razões. Utilizando um contexto de um estudo clínico, por exemplo, a morte de um paciente por outra causa que não a do estudo, bem como o fim do acompanhamento do indivíduo por alguma razão podem ser fatores que causam a censura.
Por que usamos as censuras nos estudos?
Por mais que as censuras sejam obervações incompletas, possuem relevância por fornecer informações sobre o tempo de vida de pacientes nos estudos sobre doenças, ou o tempo até a falha/defeito de um produto. Vale salientar que a omissão das censuras nos cálculos das estatísticas de interesse podem influenciar nas análises e gerar conclusões enviesadas.
Tipos de Censura
A depender do estudo, há tipos de censura que podem ser ocasionadas ao longo do procedimento. Desta forma, podem ser definidos como censura do tipo I ou do tipo II, aleatória, a direita ou a esquerda e intervalar.
A censura do tipo I ocorre em estudos que ao serem finalizados após um tempo pré-definido, observam-se indivíduos que não experimentaram o evento de interesse. A do tipo II decorre dos estudos finalizados após um número pré-determinado de indivíduos observarem o evento de interesse.
A censura à direita dá-se quando o tempo de registro é menor que a ocorrência do evento, enquanto na censura à esquerda, o evento já ocorreu antes do estudo.
Vale destacar que a censura aleatória ocorre geralmente no campo da medicina, devido ao indivíduo ser retirado durante o estudo sem ter ocorrido a falha. A exemplo disso, morte por causa contrária à estudada.

Fonte: Análise de Sobrevivência Aplicada – Colosimo e Giolo.
Note que a imagem acima ilustra os tipos de censura durante um determinado tempo, além do tempo final definido. Em (a) todos os indivíduos experimentaram o evento antes do final do estudo.
Na imagem (b), alguns indivíduos não experimentaram o evento até o final do estudo, enquanto isso, em (c), o estudo foi finalizado após a ocorrência de um número pré-estabelecido de falhas.
A imagem (d) ilustra a censura aleatória, em que o acompanhamento de alguns indivíduos foi interrompido por alguma razão e alguns indivíduos não experimentaram o evento até o final do estudo.
Estimador de Kaplan-Meier
O estimador de Kaplan-Meier é uma técnica estatística não paramétrica para a estimação da função de sobrevivência. É considerado o “padrão-ouro” e baseia-se na ocorrência dos eventos e nas censuras ao longo do tempo.
Esse estimador descreve e compara o comportamento da função de sobrevivência para diferentes grupos de indivíduos (COLOSIMO, E.; SUELY, R., 2006).

A representação gráfica da função de sobrevivência (a probabilidade de uma observação não falhar até determinado tempo) é denominada curva de sobrevivência, sendo esta uma função escada, e tendo valor constante em cada intervalo de tempo. No caso da imagem acima, note que conforme o tempo aumenta (em dias), a probabilidade de sobrevivência decai. Além disto, é possível comparar essas curvas para determinados grupos e verificar qual grupo possui uma curva de sobrevivência mais acima, ou seja, que a probabilidade de sobrevida decai lentamente durante o tempo.
A imagem abaixo apresenta um exemplo com objetivo de comparar dois tipos de embalagens (A e B) para um certo produto alimentício sem conservante e em temperatura ambiente. Deseja-se investigar se há diferença na durabilidade do referido produto conforme as respectivas embalagens. O evento de interesse é o tempo (em horas) até o produto apresentar problemas na qualidade.

Na embalagem B, aparentemente, o produto dura por mais tempo. Note que a probabilidade de sobrevivência do produto na embalagem B até o tempo de 50 horas é acima de 80%, enquanto a embalagem A começa a decair a partir de 30 horas. Próximo das 50h, as curvas de sobrevivência se encontram e pode ser feita a seguinte pergunta: e se não existir diferença em ambas as curvas?
Desta forma, como o intuito é verificar se as curvas de sobrevida são iguais, é indicado o uso do teste log rank. Esse teste compara a diferença entre o número de eventos observados e o número de eventos esperados em cada tempo e pode ser usado para comparar duas ou mais curvas. Testa-se que não há diferença na sobrevivência entre os grupos (hipótese nula).
Como o p-valor foi 0,9, pode-se dizer que não há evidências para rejeitar a hipótese nula ao nível de 5% de significância. Isso quer dizer: não existe diferença entre as curvas de sobrevivência para os dois tipos de embalagens.
Quais são os modelos convencionais em Análise de Sobrevivência ?
Os modelos probabilísticos mais convencionais em análise de sobrevivência são: exponencial, Weibull e log-normal. Esses modelos possuem destaque devido às circunstâncias práticas.
A distribuição exponencial é o modelo mais usual para descrever o tempo de falha, e tem como propriedade a função de taxa de falha constante (observação velha quanto nova que ainda não observaram a falha, possuem a mesma probabilidade de falha em um tempo futuro). É relevante na descrição do tempo de vida de produtos e materiais na área da engenharia, voltada para o controle de qualidade desses produtos. Entretanto, também é possível o seu uso para estimar o tempo de vida de pacientes nos estudos clínicos.
A distribuição Weibull (Weibull, 1939) é bastante utilizada por biomédicos devido à propriedade da sua função de taxa de falha ser monótona, ou seja, esta função é constante, crescente ou decrescente.
Já a distribuição log-normal está atrelada aos tempos de vida de produtos e indivíduos, como semicondutores e isolação elétrica. As taxas de falha crescem, atingem um valor máximo e logo depois decrescem.
Cada distribuição possui sua respectiva função de sobrevivência e a utilização desses modelos deve ser analisada e planejada com cuidado para que não ocorra erros nas estimativas de sobrevivência e consequentemente nos resultados.
Uma das formas de comparar e selecionar esses modelos é através do método gráfico, em que se usam as curvas de sobrevivência e verifica-se qual modelo probabilístico melhor se ajusta a curva de sobrevivência do estimador de Kaplan-Meier.

Através da figura dos modelos e suas respectivas curvas de sobrevivência versus a curva de sobrevivência de Kaplan-Meier, é possível observar qual modelo melhor se ajusta a referida curva. Assim, os modelos Weibull e log-normal melhor se adequam, apenas considerando a imagem. É importante salientar que o método gráfico é uma das formas de comparação de modelos para dados censurados.
Abordaremos outros modelos de sobrevivência e outros métodos de comparação como o teste de razão de verossimilhança e AIC em nossos futuros artigos. Então, não deixe de acompanhar o nosso Blog. Caso tenha alguma dúvida sobre análise de sobrevivência, não deixe de entrar em contato com nossos Data Talkers.
Excelente conteúdo. Estudo Administração na Universidade Federal de Santa Maria (UFSM) e estou encantando com a precisão e clareza de vosso conteúdo!