Meus dados são normais?


É
comum as pessoas confundirem erros com resíduos. Mas
erro (error) significa a diferença de um dado valor da variável com
um parâmetro muitas vezes “teórico”, enquanto
resíduo (residual) significa a diferença de um valor observado da
variável e uma estatística (uma estimativa do parâmetro) obtida da amostra.
Numa análise de variância com um critério de classificação, erros e resíduos
são dados, respectivamente, por


 Ninguém conhece os erros eij
porque os parâmetros, ou
seja, a
s
médias verdadeiras
mi
dos grupos são desconhecidas. No entanto, o pesquisador faz um ensaio
exatamente para obter as estimativas dessas médias. Veja como exemplo os dados de
um ensaio fictício, apresentados na Tabela 1. As estimativas das médias
m1, m2, m3 e m4 estão no
rodapé dessa tabela.

Tabela 1 – Valores obtidos em um ensaio

Podemos estimar os erros
fazendo a diferença entre cada dado e a média (estimada)
do grupo ao qual esse dado pertence. São os resíduos,
apresentados na Tabela 2.
Tabela 2 – Resíduos (dados na Tabela 1)


O estudo das estimativas dos erros, ou
seja, dos resíduos (residuals) é referido na
literatura como análise de
resíduos. 
Essa análise ajuda
verificar se as pressuposições exigidas para proceder à análise de variância
são plausíveis. Vamos discutir então a questão dos resíduos, dada à
pressuposição de que, para proceder a uma ANOVA, os erros devem ter 
distribuição
normal ou aproximadamente normal.
O gráfico da distribuição normal ou – como preferem os físicos, da curva de
Gauss  
tem aspecto típico: é uma
curva em forma de sino, simétrica em torno da média
como mostra a Figura 1. Mas como saber se os resíduos têm distribuição normal? Você pode
recorrer à avaliação gráfica ou a um teste estatístico.

Figura 1- Distribuição normal

Os testes estatísticos apresentam a vantagem de serem objetivos. Você
verifica a aderência (goodness off
it) de seus dados à curva normal No entanto, os testes de normalidade são muito
sensíveis ao tamanho da amostra 1: se a amostra for pequena, os
testes de normalidade têm pouco poder de rejeitar a hipótese de nulidade (de
que a distribuição é normal). Isso significa que amostras pequenas passam mais
facilmente pelo teste de normalidade. Por outro lado, uma amostra grande terá
resultado significante no teste, mesmo que o desvio da normalidade seja
pequeno. No entanto, desvios pequenos da normalidade não afetam os resultados
do teste F (na ANOVA, um critério) quando a
amostra é grande.

Mas é possível fazer testes estatísticos. Há vários, mas os mais comuns são o
Shapiro-Wilks e o Kolmogorov-Smirnov. Este último foi aplicado aos dados
apresentados na Tabela 1, usando o programa SPSS. O resultado foi
não-significante (
p-valor = 0,200).

De qualquer forma, é sempre recomendável
olhar os dados em gráfico. Usando poucas ferramentas, você pode obter muita
informação. E – quando se pensa em não-normalidade – é conveniente lembrar os
coeficientes de assimetria e de curtose. A distribuição dos dados pode ser
assimétrica, isto é, ter mais unidades de um lado do que do outro. Veja a
Figura 2. Também pode ter curtose (é pior para a análise quando a curtose é
negativa). Veja a Figura 3. 
     Figura 3-
Curtose


Mas que gráficos você pode fazer? Pense
primeiro em um histograma. Com os resíduos apresentados na Tabela 2, você pode
construir o histograma da Figura 3. Tenha ou não experiência, é difícil ver aí
uma distribuição normal. Por outro lado, salta aos olhos que a distribuição é
simétrica. Lembre-se de que 
a ANOVA é bastante robusta a violações da normalidade, ou seja,
mesmo que esta pressuposição não seja atendida completamente, os resultados
ainda assim permanecem válidos. Mais importante é a distribuição dos erros seja simétrica, que é o caso do
exemplo 2.

Figura 3 – Histograma
                         
Algumas estatísticas descritivas, como
média, mediana, variância, desvio padrão, coeficiente de assimetria e
coeficiente de curtose ajudam a entender a distribuição. A média dos resíduos
é, evidentemente, zero e a mediana também é zero. O coeficiente de assimetria
(no Excel está Distorção) é zero, porque a distribuição é perfeitamente
simétrica. A curtose (no Excel está Curt), negativa,
 significa que a distribuição dos resíduos tem cauda mais leve e é
mais achatada do que a distribuição normal. Mas o valor é pequeno. Então, nada
indica ainda que não possamos aceitar a normalidade dos resíduos.

Tabela 3 – Estatísticas
descritivas dos resíduos (dados na Tabela 1)

Você também pode desenhar o gráfico de ramo e folhas, que
acaba sendo apenas um histograma colocado em posição horizontal. Mas um
boxplot
  (diagrama de caixa) é
informativo. É um gráfico relativamente simples. Veja na Figura 4 o boxplot
feito com os resíduos apresentados na Tabela 2. Você vê a simetria e a ausência de outliers, o que dá segurança para proceder a uma análise de variância. 



                                           Figura 4 – Boxplot

Dois outros gráficos também são muito úteis: P-P plot e
Q-Q plot. Um gráfico Q-Q plot ou gráfico dos quartis-quartis (quantile-quantile
plot) está apresentado
na Figura 5. No eixo das abscissas estão os valores observados dos
resíduos e no eixo das ordenadas estão os valores dos resíduos sob a hipótese
de que a distribuição deles é normal. Quando os pontos estão sobre uma reta que
faz 45º com o eixo das abscissas, a distribuição é normal. Pequenos desvios da
normalidade são aceitáveis. Como não se ensina fazer esse gráfico em cursos
introdutórios de estatística, será dado o procedimento em outra postagem.

 Figura 5
Referências

1.       
Asghar Ghasemi and Saleh Zahedias. Normality Tests for
Statistical Analysis: A Guide for Non-Statisticians.  
Int J
Endocrinol Metab
. 2012 Spring; 10(2): 486–489

2.       
 SCHEFFÉ, H. The analysis of variance. New York : Wiley, 1959.

Veja Também:

*****************************************************************Um pouco mais:

Em um curso de análise de
dados, a assimetria é informalmente definida em termos de comprimento da cauda
ou da relação média, mediana, moda. Na ilustração clássica da relação entre assimetria,
média, mediana e moda, a assimetria é à direita se a média está à direita da
mediana e a mediana está à direita da moda. Veja a figura

Esta figura está em
Mean, Median, and Skew:
Correcting a Textbook Rule
Paul T. von
Hippel
The Ohio State University
Journal of Statistics Education Volume 13, Number 2
(2005),
ww2.amstat.org/publications/jse/v13n2/vonhippel.html
Mas há exceções.
De qualquer
modo, a assimetria é definida em termos do 3º momento.

Stela me
pergunta: Será que existe uma distribuição de dados em que a média é menor do
que a mediana e o 1º momento está mais perto da mediana do que o 3º momento? Confira,
por favor.

Tags: No tags

7 Responses

Add a Comment

Your email address will not be published. Required fields are marked *