Kolmogorov- Smirnov : teste de normalidade

Aplicamos
o teste de aderência de Kolmogorov-Smirnov para verificar se determinada amostra vem de população com distribuição específica. Essa “distribuição
específica” é, na maioria das vezes, a distribuição normal. Nesses casos,
podemos dizer que estamos usando o teste
de normalidade de Kolmogorov-Smirnov
.



Vamos
ver, por meio de um exemplo, o procedimento para testar a hipótese de que erros
em torno da média têm distribuição normal, usando o teste de normalidade de
Kolmogorov-Smirnov.
EXEMPLO
Com um cronômetro na mão para medir o
período de oscilação de um pêndulo, você faz n=20 medições. Os
resultados estão na Tabela 1.

                                               Tabela
1
           Leituras do período de oscilação de um pêndulo, em segundos


A média aritmética das n=20 medidas
é a melhor estimativa para o período de oscilação:


Os desvios da média, apresentados na Tabela 2, estimam os
erros de medida. 
Tabela 2
Desvios da média das leituras do
período
 de oscilação de um pêndulo, em
segundos


A média
dos desvios é
Como a
média é igual a zero, o desvio padrão é dado por

Podemos organizar os dados na Tabela 3, de distribuição de frequências, e desenhar o histograma apresentado na Figura 1.

Tabela 3
Tabela de distribuição de frequências





Figura 1

Histograma para os desvios da média das leituras do período
 de oscilação de um pêndulo, em segundos



Podemos desenhar,
sobre o histograma, a distribuição normal, com a mesma média e desvio padrão
dos desvios apresentados na Tabela 2. Veja a Figura 2.
 
                                                    Figura
2
                 Distribuição normal desenhada
sobre o histograma



  Para aplicar o
teste de Kolmogorov-Smirnov:

1.   
As frequências acumuladas (FAi) dos desvios.
2.   As frequências relativas 
acumuladas
(FRAi) dos
desvios.
3.   
O valor padronizado (ou
estandartizado
) zi para
cada desvio di. A média será sempre zero mas, para o exemplo que
estamos desenvolvendo, o desvio padrão calculado é s= 0,1487. Então, no exemplo:
4. As probabilidades
acumuladas
Pi  dos desvios padronizados sob a
distribuição normal padronizada. Veja a Figura 3, em que a probabilidade
acumulada até -1 está em cinza azulado.
Figura 3
Probabilidade acumulada sob a distribuição normal padronizada 



5. Os valores absolutos das diferenças Di entre as frequências relativas
acumuladas dos desvios FRAi
e as probabilidades acumuladas Pi  dos desvios.
6. Os valores absolutos das diferenças Dientre as probabilidades
acumuladas Pi dos desvios e as frequências relativas acumuladas
dos desvios de uma classe imediatamente anterior FRAi.
7.  Compare a maior estatística Di ou Di’ observada com o valor de D obtido em uma
tabela de valores críticos de D para o teste de aderência de
Kolmogorov-Smirnov para dados contínuos. A estatística de teste é:
8.   Rejeite a hipótese de que os desvios têm
distribuição normal (a hipótese de nulidade) se a estatística D calculada
for maior que a crítica dada na Tabela 5, ao nível
estabelecido de significância e para o tamanho de amostra[1].
Veja os resultados desses cálculos na
Tabela 4.

Tabela 4 
Cálculos auxiliares para o teste de aderência de Kolmogorov Smirnov

    O valor máximo encontrado para D foi 0,150, menor que o valor crítico para o nível de significância de 5%, com tamanho de amostra 20. Então não se rejeita a hipótese de que a distribuição é normal.
 Tabela 5

           Fonte: ZAR,J. Biostatistical Analysis. 4 ed. Prentice Hall. 1994.
Veja o
resultado obtido pelo teste, feito no programa SPSS: não se rejeita a hipótese
de normalidade. 



É bastante comum, quando se pretende aplicar uma análise de variância (ANOVA) aos dados experimentalmente, que se faça a pressuposição de que os erros são variáveis aleatórias independentes com distribuição normal. Veja um exemplo.
EXEMPLO

Todo produtor de milho quer ter maior produtividade. Imagine que um produtor colocou
à disposição de um agrônomo uma área onde é possível alocar 20 parcelas para a
experimentação de três híbridos além do que chamaremos testemunha, ou seja, o
que o produtor planta em sua propriedade. A
Tabela 6 apresenta os dados segundo o tratamento e, no rodapé, as médias. Até que ponto as diferenças observadas entre as médias dos
tratamentos são suficientemente grandes para serem tomadas como evidência de
que há diferença significante entre eles? A resposta para essa pergunta é dada
por uma análise de variância, que
testa a hipótese de que as médias populacionais são iguais, isto é:
contra a hipótese alternativa de que existe pelo menos uma média
diferente das demais. 
Tabela
6
 Produtividade de milho em kg/100 m2 segundo
o tratamento

Teste a hipótese de que os erros têm distribuição
normal. A média geral dos desvios é zero e o desvio padrão é 2,4279.


Outros testes de normalidade

Há vários testes de aderência à distribuição normal. Alguns deles, como o
de Anderson- Darling e o de Kramer-von Mises são, na realidade, melhoramentos
feitos sobre o teste de Kolmogorov- Smirnov[1].
Como são mais poderosos, são preferidos por muitos analistas.
     O teste de
Shapiro-Wilk, proposto em 1965, tem se saído muito bem nos estudos de
comparação com outros testes de aderência. Usa uma estatística complicada, que
não será dada aqui.
Para bem entender a estatística de teste, veja
o trabalho original[2].
Mas é comum nos programas de computador e deve ser preferido quando a amostra é
pequena. Veja o resultado obtido no teste
de Shapiro-Wilk
no exemplo anterior.
E não se impressione com a diferença entre os valores p: as estatísticas de teste são
diferentes. Além disso, o teste
de Shapiro-Wilk tem mais poder (rejeita H0
mais vezes).



[1] Kolmogorov-Smirnov Goodness-of-Fit Test.
https://www.itl.nist.gov/div898/handbook/eda/…/eda35g.htm

[2]The Shapiro-Wilk and related tests
for normality. https://math.mit.edu/~rmd/465/shapiro.pdf






Tags: No tags

2 Responses

Add a Comment

Your email address will not be published. Required fields are marked *