ANOVA:transformação de variáveis

     As
pressuposições exigidas para proceder a uma ANOVA (análise de variância) nem
sempre são perfeitamente atendidas quando se tem dados reais. Mas o pesquisador
que escolhe proceder à ANOVA precisa ter segurança de que seus dados atendem,
mesmo que não completamente, às pressuposições exigidas.
    Já
sabemos que pequenos desvios do pressuposto de normalidade não afetam
seriamente a validade da análise de variância, principalmente quando os grupos
são de tamanhos iguais ou praticamente iguais. Pequenas transgressões da
pressuposição de igualdade de variâncias também têm pouca importância prática,
exceto em duas situações: 1) de assimetria; 2) de curtose positiva.
De qualquer forma,
o teste F é o mais poderoso dos
testes disponíveis, quando as pressuposições para sua aplicação são atendidas. Quando
isso não acontece, o pesquisador deve
recorrer aos testes não-paramétricos ou transformar os dados. As transformações
foram propostas para estabilizar a variância, mas em geral também
eliminam a não-normalidade.
Mas o que significa
transformar os dados? Você executa
uma operação matemática em cada observação, para depois fazer o teste
estatístico com os dados transformados. Vejamos as transformações mais
conhecidas.
1.Raiz quadrada
 Variáveis obtidas
por processo de
contagem não tem variância constante nem distribuição
normal. No entanto, são relativamente comuns os ensaios em que a variável em
análise resulta de um processo de contagem. Por exemplo, um médico pode estudar
a
prevalência de lesões por fricção em pacientes hospitalizados com câncer,
um agrônomo pode contar o número de frutos em ramos de determinado diâmetro em pomares de laranja, um biólogo pode contar
colônias de bactérias em placas de Petri.
Para analisar dados de contagem,
recomenda-se extrair a raiz quadrada de cada observação. Essa nova
variável tem, em geral, variância constante. Considere os dados (fictícios) de
contagem apresentados na Tabela 1. Verifique que transformar a variável, ou
seja, extrair a raiz quadrada dos dados diminui a heterogeneidade das
variâncias.
Tabela 1- Dados de contagem e respectivas transformadas (raiz quadrada) segundo
o grupo

Se
os dados são pequenos (menores do que 10) ou há muitos zeros, recomenda-se
analisar, em lugar da variável X em estudo, a variável 

 2.Logaritmos
Muitas variáveis na área de biologia têm distribuição lognormal.
Então, analisar
não a variável
coletada, mas a variável transformada, isto é, o logaritmo (decimal ou
neperiano) dessa variável, ajuda a estabilizar a variância e tornar a
distribuição normal. Mas como se reconhece a necessidade da transformação
logarítmica?
Se a variância dos grupos cresce com a média, é razoável optar
pela variável transformada para a análise. A explicação é a de que, se a
variável que você estuda é resultante de vários fatores que se multiplicam,
então essa variável tem distribuição lognormal. Um exemplo é a altura das
árvores de um pomar. A altura de uma árvore é afetada pelo solo, quantidade de
água, de luz solar, de ventos etc. Então a variável altura das árvores de um
pomar tem distribuição lognormal. Também deve ter distribuição lognormal
o
tempo de sobrevivência de bactérias em desinfetantes, o peso e a pressão
sanguínea das pessoas.
Considere os dados (fictícios)
apresentados na Tabela 2. Verifique que a transformação
logarítmica 
torna a distribuição normal, como mostra a Figura 1 e diminui
a heterogeneidade das variâncias, conforme mostram os resultados apresentados
na Tabela 2.
 Tabela 2- Dados e respectivas transformadas (logaritmo decimal) segundo o
grupo
Figura 1 – Gráficos Q-Q para os resíduos: na parte superior, com a variável transformada
 e na parte inferior, com a variável coletada

3. Arco seno raiz da proporção

Em alguns ensaios, os valores
que podem ser contados têm um máximo preestabelecido. Nesses casos, a variável
em análise é uma proporção, que pode estar ou não expressa em porcentagem. Como
exemplo, considere o número de dentes presentes na boca. O máximo é 32. Então,
a variável em análise é a proporção de dentes presentes.
Proporção não se
confunde com contagem. Na contagem, não existe um limite preestabelecido para o
valor máximo que pode ser contado. Por exemplo, o número de nódulos em raízes
de leguminosas é uma contagem, porque não existe um valor máximo teórico que
não pode ser ultrapassado. Já a porcentagem de germinação de sementes em vaso tratadas
por diferentes processos é uma proporção, porque nesses experimentos contam-se
as sementes postas para germinar.
Se as proporções
calculadas variarem entre 0,3 e 0,7, a análise de variância pode ser feita sem
transformação prévia, mas se existirem muitos valores fora desse intervalo,
deve-se transformar a variável para homogeneizar as variâncias. Recomenda-se,
nesses casos, a transformação arco seno da raiz da proporção.
Observe os dados (fictícios) da Tabela 3. A variável é
uma proporção. Os dados e os valores transformados (arco
seno da raiz da proporção) estão na mesma tabela.
 Tabela 3- Dados e respectivas transformadas (arco seno raiz da proporção) segundo o grupo
Para
quem tem pouco conhecimento de estatística, transformar dados pode parecer uma
manipulação duvidosa, feita com a única finalidade de se chegar ao que se quer.
Por conta disso, o pesquisador que transforma seus dados precisa saber defender
o que fez. E é sempre recomendável aplicar a transformação que é comum entre os
pesquisadores de sua área de estudo.
Mesmo
que você tenha feito um teste estatístico com a variável transformada, como a
raiz quadrada do número de colônias de bactérias em placas de Petri, não é boa
ideia relatar médias, erros padrões etc. em unidades transformadas. Um gráfico
que mostrasse a média da raiz quadrada da variável em análise não expressaria o
valor que um biólogo espera na condição estudada. É preciso voltar a variável
na forma coletada, para apresentar as estatísticas descritivas e os gráficos.
Isso envolve fazer o oposto da função matemática usada na transformação de
dados. Mas cuidado nessa volta!
Nota: os gráficos foram feitos com os resíduos. Os dados das tabelas 1 e 2 são poucos para mostrar a diferença no aspecto dos gráficos que indicam a normalidade ou não-normalidade da variável.

Tags: No tags

7 Responses

Add a Comment

Your email address will not be published. Required fields are marked *