A Análise de Variância ou ANOVA é um procedimento usado para comparar a distribuição de três ou mais grupos em amostras independentes.

A análise de variância é também uma forma de resumir um modelo de regressão linear através da decomposição da soma dos quadrados para cada fonte de variação no modelo e, utilizando o teste F, testar a hipótese de que qualquer fonte de variação no modelo é igual a zero.

Contextualizando uma aplicação da Anova

Suponha um curso preparatório para o ENEM que tenha em seu corpo docente três professores de matemática, que são responsáveis por diferentes turmas de alunos. A direção da escola suspeita que a variação do desempenho dos alunos nas provas de matemática do ENEM pode ser explicada pelo trabalho desenvolvido pelos seus professores.

Sendo assim, a direção resolveu verificar as notas na prova de matemática dos alunos de cada professor e calculou a média das notas de cada turma.

Mas será que essa informação é suficiente para afirmar que o desempenho dos alunos de cada turma é realmente diferente? E se um dos professores tiver em sua turma um aluno que não se preparou e errou quase todas as questões? Esse aluno não seria responsável por ter diminuído a média do grupo de alunos desse professor?

Para verificar então se realmente o desempenho dos alunos variou de acordo com o professor, é necessário a utilização de teste estatístico, que além de considerar a média das notas, leva também em conta a variação das notas dentro de cada turma.

A Análise de Variância

Um dos objetivos da aplicação da ANOVA é realizar o teste estatístico para verificar se há diferença entre distribuição de uma medida entre três ou mais grupos. Em nosso exemplo, podemos definir as hipóteses do teste como:

  • H0: Não existe diferença entre o desempenho das notas dos alunos de cada professor.
  • H1: Há pelo menos um professor com alunos com desempenho diferente.

Mas o que significa diferença entre as distribuições? Qual a relação entre as distribuições das notas dos alunos de cada professor e as hipóteses testadas pela análise de variância?

Caso os três grupos de alunos apresentem mesma variabilidade e a mesma média de desempenho, suas distribuições tendem a se sobrepor, confirmando a hipótese de que não existe diferença entre o desempenho das notas dos alunos de cada professor. Caso contrário, quando os grupos apresentam a mesma variabilidade interna e médias de desempenho diferentes, as distribuições se distanciam quanto mais as médias de desempenho se diferenciam.

Diferença de Distribuições - ANOVA

O modelo ANOVA e seus pressupostos

Para aplicação da análise de variância, são necessárias algumas suposições, sendo elas:

  1. As observações são independentes, ou seja, cada elemento amostral (aluno) deve ser independente;
  2. Os grupos comparados apresentam a mesma variância;
  3. Os erros são independentes e provenientes de uma distribuição normal com média igual a zero e variância constante.

Cabe ressaltar que os grupos de alunos de cada professor podem ser vistos como três níveis de um mesmo fator, sendo que o objetivo é saber se o fator professor exerce alguma influência na variação do desempenho das notas de matemática.

Quais são os resultados gerados pela análise de variância?

As informações geradas na análise de variância estão resumidas na tabela abaixo. Nela são apresentados os graus de liberdade, a soma de quadrados, o quadrado médio, a estatística F e o valor-p.

Fonte de VariaçãoGraus de LiberdadeSoma de QuadradosQuadrado MédioEstatística FValor P
Tratamentos256.80628.4035,250,010
Resíduos33178.7835.418
Total35235.589

Os graus de liberdade são calculados com base no número de professores (grupos) e no número total de alunos.

A soma de quadrados mede a variação dos dados. A soma de quadrados total mede a variação total nos dados, a soma de quadrados dos tratamentos mede a variação entre os professores de cada turma e a soma dos quadrados dos resíduos mede a variação dentro de cada turma, ou seja, mede a variação dos alunos de cada professor.

O quadrado médio é a razão entre a soma de quadrados e os graus de liberdade e a estatística F, pode ser encontrada na tabela de distribuição F de Fisher- Snedecor.

Como interpretar os resultados da ANOVA?

Tomando como base a tabela anterior, pode-se concluir que existe pelo menos dois professores com alunos com desempenho significativamente diferentes ao avaliar o valor-p = 0,010 (menor que o nível de significância estabelecido de 0,05).

A conclusão da ANOVA pode ser feita também com base na Estatística F. A estatística F tem distribuição F de Fisher-Snedecor com k-1 e n-k graus de liberdade, onde k é o número de grupos (k = 3) e n é o número de observações (n = 36). Neste caso fictício, obteríamos F ≅ 3,32 e como a Estatística F (5,25) foi maior que o F tabelado (3,32), conclui-se que existe pelo menos dois professores com alunos com desempenho significativamente diferentes.

Mas como saber quais professores com alunos com desempenhos diferentes diferem entre si? A forma de averiguar isto é complementar a ANOVA, através da utilização do teste de comparação múltipla, como por exemplo, o teste de Tukey (veja aqui nosso artigo sobre o teste).

Se interessou por Análise de Variância e os resultados obtidos ao utilizar esta técnica?  Não deixe de se registrar em nosso Blog, para acompanhar nossas publicações e caso tenha alguma dúvida, entre em contato com nossos Data Talkers.

2 respostas

Deixe uma resposta

Quer participar dessa discussão?
Sinta-se livre para contribuir!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *