Em estudos que buscam comparar a distribuição de três ou mais grupos de amostras independentes, frequentemente se utiliza a Análise de Variância ou ANOVA. Nesse caso, o resultado evidencia que a distribuição de pelo menos um dos grupos se difere das demais, mas não indica entre quais grupos a diferença é significativa. Assim, se faz necessário utilizar testes de comparações múltiplas e hoje, abordaremos um deles: o Teste de Tukey.

Para ilustrar a aplicação e utilização do Teste de Tukey, continuaremos utilizando o exemplo fictício apresentado no artigo sobre “Como interpretar uma Análise de Variância”. Nele, se buscava verificar se o desempenho na prova de matemática de alunos de um curso preparatório para o ENEM variava de acordo com o professor que lecionava a disciplina.

Teste Tukey - Exemplo

No exemplo, os resultados indicaram que existia pelo menos dois professores com alunos com desempenho significativamente diferentes. Agora, utilizaremos o Teste de Tukey para verificar quais são eles.

Leia também: Como interpretar uma Análise de Variância (ANOVA)

O Teste de Tukey

Dentre os testes de comparações múltiplas mais utilizados, o Teste de Tukey se destaca por ser poderoso ao fazer comparações entre todos os pares e também por ser de fácil aplicação. Também é conhecido como Teste de Tukey HSD (Teste de Tukey da Diferença Honestamente Significativa).

O teste de Tukey foi desenvolvido por John Wilder Tukey e apresentado em 1949 no artigo titulado “Comparing Individual Means in the Analysis of Variance” (Biometrics. 5 (2): 99–114. JSTOR 3001913).

Quando os tamanhos amostrais dos grupos são iguais, o Teste de Tukey é um teste exato, ou seja, para o conjunto de todas as comparações par a par, a taxa de erro do conjunto dos testes é exatamente α (nível de significância) e o intervalo de confiança é também exatamente 1 – α. Vale ressaltar que testes de comparações múltiplas exatos são raros, uma vez que a maioria não controla o nível de significância adotado.

O Teste de Tukey consiste em comparar todos os possíveis pares de médias e se baseia na diferença mínima significativa (D.M.S.), considerando os percentis do grupo. No cálculo da D.M.S. utiliza-se também a distribuição da amplitude estudentizada, o quadrado médio dos resíduos da ANOVA e o tamanho amostral dos grupos.

Mas, e quando os tamanhos amostrais dos grupos são diferentes? Devo usar outro teste de comparação múltipla?

Quando os tamanhos amostrais dos grupos são diferentes, o Teste de Tukey ainda pode ser usado. Apesar de não ser mais um teste exato, é um teste aproximado. Nesse caso, o Teste de Tukey é alterado e passa a ser chamado de Tukey-Kramer, que também considera em sua metodologia o tamanho amostral de cada grupo.

Aplicação do Teste de Tukey

No artigo sobre a interpretação da ANOVA, verificamos que existia uma diferença significativa no desempenho dos grupos de alunos de cada professor. Mas será que apenas o grupo de alunos de um professor se difere dos demais? Ou todos se diferem entre si? Observe que neste caso existem três comparações par a par a serem realizadas.

Os resultados obtidos do Teste de Tukey são apresentados na tabela abaixo, que mostra a diferença mínima significativa, a diferença entre as médias do desempenho do grupo de alunos de cada professor, o intervalo de confiança e o valor-p.

Diferença Mínima SignificativaProfessoresDiferençaI.C. – 95%Valor P
88,18PROF_2 – PROF_1113,75[25,57 ; 201,93]0,009
PROF_3 – PROF_1-107,08[-195,27 ; -18,90]0,014
PROF_3 – PROF_2-220,83[-309,02 ; -132,65]0,001

Como interpretar os resultados do Teste de Tukey?

O teste pode ser interpretado com base no valor da diferença mínima significativa (D.M.S.), no intervalo de confiança e no valor-p.

  • Diferença Mínima Significativa – Em nosso exemplo, observamos que o módulo da diferença da média entre os pares de professores foi maior que o valor da D.M.S. obtido. Isso nos leva a concluir que o desempenho médio dos alunos dos professores (1 e 2), (1 e 3) e (2 e 3) são significativamente diferentes.
  • Intervalo de Confiança – Notamos que o valor 0 (zero) não está contido nos intervalos de confiança. A partir disso, conclui-se também que o desempenho médio dos alunos dos professores (1 e 2), (1 e 3) e (2 e 3) são significativamente diferentes.
  • Valor P – Considerando o valor-p, notamos que todos eles são menores que o nível de significância adotado (valor-p < 0,05). Dessa maneira, chegamos a mesma conclusão baseada na D.M.S e nos intervalos de confiança.

Como realizar o Teste?

No software R há pelo menos duas maneiras de realizar o Teste de Tukey: através do função TukeyHSD, ou função HSD.test do pacote agricolae. O resultado obtido em ambos os casos é o mesmo, porém em um dos comandos obtém-se o valor do D.M.S, enquanto que no outro tem-se o intervalo de confiança e o valor-p.

Pressupostos para utilização do teste

Para realizar o Teste de Tukey, deve ser levada em conta as seguintes suposições:

  1. As observações são independentes dentro e entre os grupos;
  2. Os grupos devem ser normalmente distribuídos;
  3. A variância dentro do grupo deve ser constante.

Mas o que fazer quando a suposição da normalidade, por exemplo, não é atendida?

Um procedimento alternativo à ANOVA e ao Teste de Tukey é o teste de Kruskal-Wallis e o teste de comparação múltipla de Nemenyi, temas que serão abordados em futuros artigos. Por isso, não deixe de acompanhar nosso Blog.

1 responder

Trackbacks & Pingbacks

  1. […] Mas como saber quais professores com alunos com desempenhos diferentes diferem entre si? A forma de averiguar isto é complementar a ANOVA, através da utilização do teste de comparação múltipla, como por exemplo, o teste de Tukey (veja aqui nosso artigo sobre o teste). […]

Deixe uma resposta

Quer participar dessa discussão?
Sinta-se livre para contribuir!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *