comum as pessoas confundirem erros com resíduos. Mas erro (error) significa a diferença de um dado valor da variável com
um parâmetro muitas vezes “teórico”, enquanto resíduo (residual) significa a diferença de um valor observado da
variável e uma estatística (uma estimativa do parâmetro) obtida da amostra.
Numa análise de variância com um critério de classificação, erros e resíduos
são dados, respectivamente, por
porque os parâmetros, ou
seja, as
médias verdadeiras mi
dos grupos são desconhecidas. No entanto, o pesquisador faz um ensaio
exatamente para obter as estimativas dessas médias. Veja como exemplo os dados de
um ensaio fictício, apresentados na Tabela 1. As estimativas das médias m1, m2, m3 e m4 estão no
rodapé dessa tabela.
fazendo a diferença entre cada dado e a média (estimada)
do grupo ao qual esse dado pertence. São os resíduos,
apresentados na Tabela 2.
seja, dos resíduos (residuals) é referido na
literatura como análise de
resíduos. Essa análise ajuda
verificar se as pressuposições exigidas para proceder à análise de variância
são plausíveis. Vamos discutir então a questão dos resíduos, dada à
pressuposição de que, para proceder a uma ANOVA, os erros devem ter distribuição
normal ou aproximadamente normal.
Gauss – tem aspecto típico: é uma
curva em forma de sino, simétrica em torno da média como mostra a Figura 1. Mas como saber se os resíduos têm distribuição normal? Você pode
recorrer à avaliação gráfica ou a um teste estatístico.
verifica a aderência (goodness off
it) de seus dados à curva normal No entanto, os testes de normalidade são muito
sensíveis ao tamanho da amostra 1: se a amostra for pequena, os
testes de normalidade têm pouco poder de rejeitar a hipótese de nulidade (de
que a distribuição é normal). Isso significa que amostras pequenas passam mais
facilmente pelo teste de normalidade. Por outro lado, uma amostra grande terá
resultado significante no teste, mesmo que o desvio da normalidade seja
pequeno. No entanto, desvios pequenos da normalidade não afetam os resultados
do teste F (na ANOVA, um critério) quando a
amostra é grande.
Mas é possível fazer testes estatísticos. Há vários, mas os mais comuns são o
Shapiro-Wilks e o Kolmogorov-Smirnov. Este último foi aplicado aos dados
apresentados na Tabela 1, usando o programa SPSS. O resultado foi
não-significante (p-valor = 0,200).
olhar os dados em gráfico. Usando poucas ferramentas, você pode obter muita
informação. E – quando se pensa em não-normalidade – é conveniente lembrar os
coeficientes de assimetria e de curtose. A distribuição dos dados pode ser
assimétrica, isto é, ter mais unidades de um lado do que do outro. Veja a
Figura 2. Também pode ter curtose (é pior para a análise quando a curtose é
negativa). Veja a Figura 3.
Curtose
primeiro em um histograma. Com os resíduos apresentados na Tabela 2, você pode
construir o histograma da Figura 3. Tenha ou não experiência, é difícil ver aí
uma distribuição normal. Por outro lado, salta aos olhos que a distribuição é
simétrica. Lembre-se de que a ANOVA é bastante robusta a violações da normalidade, ou seja,
mesmo que esta pressuposição não seja atendida completamente, os resultados
ainda assim permanecem válidos. Mais importante é a distribuição dos erros seja simétrica, que é o caso do
exemplo 2.
média, mediana, variância, desvio padrão, coeficiente de assimetria e
coeficiente de curtose ajudam a entender a distribuição. A média dos resíduos
é, evidentemente, zero e a mediana também é zero. O coeficiente de assimetria
(no Excel está Distorção) é zero, porque a distribuição é perfeitamente
simétrica. A curtose (no Excel está Curt), negativa, significa que a distribuição dos resíduos tem cauda mais leve e é
mais achatada do que a distribuição normal. Mas o valor é pequeno. Então, nada
indica ainda que não possamos aceitar a normalidade dos resíduos.
descritivas dos resíduos (dados na Tabela 1)
Você também pode desenhar o gráfico de ramo e folhas, que
acaba sendo apenas um histograma colocado em posição horizontal. Mas um
boxplot (diagrama de caixa) é
informativo. É um gráfico relativamente simples. Veja na Figura 4 o boxplot
feito com os resíduos apresentados na Tabela 2. Você vê a simetria e a ausência de outliers, o que dá segurança para proceder a uma análise de variância.
Figura 4 – Boxplot
Dois outros gráficos também são muito úteis: P-P plot e
Q-Q plot. Um gráfico Q-Q plot ou gráfico dos quartis-quartis (quantile-quantile
plot) está apresentado na Figura 5. No eixo das abscissas estão os valores observados dos
resíduos e no eixo das ordenadas estão os valores dos resíduos sob a hipótese
de que a distribuição deles é normal. Quando os pontos estão sobre uma reta que
faz 45º com o eixo das abscissas, a distribuição é normal. Pequenos desvios da
normalidade são aceitáveis. Como não se ensina fazer esse gráfico em cursos
introdutórios de estatística, será dado o procedimento em outra postagem.
1.
Asghar Ghasemi and Saleh Zahedias. Normality Tests for
Statistical Analysis: A Guide for Non-Statisticians. Int J
Endocrinol Metab. 2012 Spring; 10(2): 486–489
SCHEFFÉ, H. The analysis of variance. New York : Wiley, 1959.
dados, a assimetria é informalmente definida em termos de comprimento da cauda
ou da relação média, mediana, moda. Na ilustração clássica da relação entre assimetria,
média, mediana e moda, a assimetria é à direita se a média está à direita da
mediana e a mediana está à direita da moda. Veja a figura
Correcting a Textbook Rule
Hippel
The Ohio State University
(2005),
modo, a assimetria é definida em termos do 3º momento.
pergunta: Será que existe uma distribuição de dados em que a média é menor do
que a mediana e o 1º momento está mais perto da mediana do que o 3º momento? Confira,
por favor.
Pode existir distribuição com a mediana próxima ao primeiro quartil mais que ao terceiro e ainda assim a média está abaixo da mediana (me refiro ao gráfico boxplot), isto é, valor da média menor que valor da mediana e então seria assimetria esquerda (negativa)? Existe?
Stela: Pergunta interessante, coloquei a resposta no final do post, porque é difícil colocar aqui figuras.
Então existe…principalmente para distribuções discretas, mas também pode acontecer em distribuição contínuas.
Dizer que a distribuição é assimétrica positiva ou negativa não tem haver com a proximidade da mediana em relação ao 1º momento (ex.: a mediana é mais próxima do 1º momento, logo é assimétrica positiva)?
E sim a média ser maior que a mediana que atesta que é uma assimetria positiva?
Pergunto isso porque tem livros que escrevem X-barra > x-til (média maior que mediana).
O que devo considerar o desenho graficamente, ou os valores das medidas descritivas (média em relação mediana). Se possível esclarecer isso agradeço muito.
Escrevi uma postagem sobre a questão da assimetria. Espero que ajude.
Olá, Eduardo, não tenho livro que trate desses conteúdos e também não sei indicar com segurança um texto sobre esses assuntos. Mas obrigada pela dica, vou estudar o teste de Kolmogorov-Smirnov e tentar expor em um blog. Sonia
Sonia,
Obrigado pelo retorno.
Será ótimo expor no seu blog.
Abraços, Eduardo
This comment has been removed by the author.