As análises de variância são comuns na
literatura especializada, bem como os testes de comparação de medias que as
seguem. Testes diferentes podem levar a resultados diferentes, mas os
pesquisadores nunca explicam porque escolheram determinado teste, nem quais
restrições têm o teste que escolheram. Aliás, em muitos trabalhos, o teste
aplicado nem mesmo é citado. Mas para aplicar uma análise de variância e depois
fazer comparações não planejadas, é fundamental que haja igualdade de
variâncias. Em geral, essa igualdade não é, nem mesmo, colocada em teste.
Vamos tratar, ainda, das comparações a
posteriori ou não planejadas (unplanned comparisons) de médias duas a
duas, aplicando testes paramétricos. Elas são baseadas nas distribuições de t,
de F e de q
(amplitude estudentizada). No entanto, nenhum dos métodos de comparações
de médias é uniformemente melhor do que todos os outros.
O teste mais simples é o LSD de
Fisher, que usa a tabela de distribuição t, com os graus de
liberdade do quadrado médio do resíduo da análise de variância. Mas o
teste LSD de Fisher fixa o erro tipo I por comparação (comparisonwise
Type I error rate). É, portanto, poderoso, mas se você aplicar o LSD de
Fisher para comparar vários grupos dois a dois (paiwise comparisons) no
nível de significância a, o nível de significância para
experimentos (experimentwise Type I error rate) fica muito alto. Por
essa razão, Fisher propôs que o LSD fosse protegido.
Bonferoni
propôs um ajuste para o nível de significância do teste LSD de Fisher,
garantindo assim um nível de significância para experimento (experimentwise
Type I error rate- EER) abaixo do escolhido. A proposta leva o nome teste
de Bonferoni.
Para entender a racional do teste,
vamos assumir que serão feitas todas as comparações de médias, duas a duas. Se
houver k grupos em comparação, podem ser feitas
comparações de médias duas a
duas. Para um erro experimental de a, Bonferoni
recomenda usar a/m
como nível de
significância para cada teste. Veja a explicação.
Se para cada comparação
de médias a hipótese da nulidade for verdadeira, a probabilidade de que,
erradamente, rejeitemos pelo menos uma hipótese é, no máximo, ma. Apenas
como exemplo, considere um experimento
para comparar três grupos, A, B, e C. São possíveis três comparações de
médias, duas a duas:
A probabilidade
de que, erradamente, rejeitemos pelo menos uma hipótese é, no máximo, 3a. Então, se fizermos m testes
no nível de significância a/m, o nível de significância para
experimentos (experimentwise Type I error rate) fica no máximo
Para fazer o teste:
·
Calcule o número m de
comparações
·
Para o nível a de
significância para experimentos, use a/m como nível de significância para cada
comparação de medias.
A Tabela 1 apresenta a diminuição da
pressão arterial no período do ensaio, isto é, a diferença entre a pressão
arterial do início e do final. Esses dados foram submetidos à análise de
variância e os resultados da análise estão na Tabela 2.
Tabela 1. Diminuição da pressão
arterial, em milímetros de mercúrio, segundo o tratamento
Como o teste F resultou significante, as médias dos dados da
Tabela 1 podem ser comparadas usando o teste Bonferoni. O ensaio tem seis
tratamentos. Então são possíveis
Como o teste F resultou significante, as médias dos dados da
Tabela 1 podem ser comparadas usando o teste Bonferoni. O ensaio tem seis
tratamentos. Então são possíveis
Para que a diferença entre duas médias
possa ser considerada significante, deve ser no mínimo igual à dms=12,37.
Podemos então organizar as médias como mostra a Tabela 3 e assim comparar todas
as médias, duas a duas (pairwise comparisons). Alguns programas de
computador adotam esse tipo de saída.
Na Tabela 3 assinalamos, com um
asterisco, todas as diferenças significantes de médias, aplicando o teste de
Bonferoni.
Tabela 3-Comparação de médias, duas a duas
pelo teste
de Bonferoni