A grande maioria dos trabalhos em ciência
experimental tem como objetivo verificar o efeito de uma intervenção ou de diferenças
entre efeitos de diversas intervenções. Imagine que você se pergunte: ”Esta nova
droga tem efeito?” Quer você busque a resposta na literatura, quer conduza um
experimento, a estatística certamente entrará na história. E como a estatística
entra na história? Os estatísticos inventaram a diferença estatisticamente significante que permite ao pesquisador
tomar decisão em condições de incerteza. Vamos discutir isso.
experimental tem como objetivo verificar o efeito de uma intervenção ou de diferenças
entre efeitos de diversas intervenções. Imagine que você se pergunte: ”Esta nova
droga tem efeito?” Quer você busque a resposta na literatura, quer conduza um
experimento, a estatística certamente entrará na história. E como a estatística
entra na história? Os estatísticos inventaram a diferença estatisticamente significante que permite ao pesquisador
tomar decisão em condições de incerteza. Vamos discutir isso.
Imagine que você quer testar uma nova droga para
diminuir a duração de um resfriado. Para fazer isso, acha 20 pacientes com
resfriado e, para 10 deles tomados ao acaso, fornece a nova droga (grupo
tratado). Aos outros 10 fornece um placebo (grupo controle). Os pacientes serão
examinados duas vezes ao dia para registrar o tempo de duração dos resfriados
de cada um. Mas resfriados não têm a mesma duração: algumas pessoas têm resfriados com duração mais longa, outros
com duração mais curta. De qualquer forma,
terminado o experimento você verifica, por exemplo, que nos 10 pacientes do
grupo tratado os resfriados perduram em média dois dias a menos que nos
pacientes do grupo controle. Você pode dizer que a nova droga realmente
funciona?
diminuir a duração de um resfriado. Para fazer isso, acha 20 pacientes com
resfriado e, para 10 deles tomados ao acaso, fornece a nova droga (grupo
tratado). Aos outros 10 fornece um placebo (grupo controle). Os pacientes serão
examinados duas vezes ao dia para registrar o tempo de duração dos resfriados
de cada um. Mas resfriados não têm a mesma duração: algumas pessoas têm resfriados com duração mais longa, outros
com duração mais curta. De qualquer forma,
terminado o experimento você verifica, por exemplo, que nos 10 pacientes do
grupo tratado os resfriados perduram em média dois dias a menos que nos
pacientes do grupo controle. Você pode dizer que a nova droga realmente
funciona?
A resposta é dada por um teste de hipóteses, também conhecido como teste de significância. Aplicando o teste, você terá resposta para
a pergunta: “Se a nova droga não teve efeito, qual é a probabilidade de o experimento ter chegado a um resultado igual,
ou mais extremo do que o obtido?” É possível calcular essa probabilidade. Para
isso, é preciso formalizar a hipótese da
nulidade (H0), que pode ser escrita como segue:
a pergunta: “Se a nova droga não teve efeito, qual é a probabilidade de o experimento ter chegado a um resultado igual,
ou mais extremo do que o obtido?” É possível calcular essa probabilidade. Para
isso, é preciso formalizar a hipótese da
nulidade (H0), que pode ser escrita como segue:
H0: a nova droga não tem efeito.
Considerando verdadeira
a hipótese da nulidade, calcula-se
a probabilidade de serem obtidos resultados iguais, ou mais extremos dos que o
que foram obtidos. É o que se chama p-valor.
Pense bem: p-valor muito pequeno significa que:
a hipótese da nulidade, calcula-se
a probabilidade de serem obtidos resultados iguais, ou mais extremos dos que o
que foram obtidos. É o que se chama p-valor.
Pense bem: p-valor muito pequeno significa que:
1)
Ou você obteve
um resultado extremamente improvável
Ou você obteve
um resultado extremamente improvável
2)
Ou a nova droga
tem efeito, logo a hipótese de nulidade deve ser rejeitada.
Ou a nova droga
tem efeito, logo a hipótese de nulidade deve ser rejeitada.
Entenda, por favor: o p-valor não mede “quão certo
você está” nem mede “quão importante
é a diferença”. Então, o que o p-valor
mede? Mede a probabilidade de você errar dizendo que uma droga
tem efeito quando não tem. Então os pesquisadores querem um p-valor pequeno. Quão pequeno
deve ser o p-valor para que você rejeite a hipótese da nulidade? Se p-valor é menor que 0,05, a regra é dizer que o efeito da droga é estatisticamente significante. A
escolha do valor 0,05 de probabilidade não tem qualquer razão matemática; é
apenas um valor que se tornou convencional depois de décadas e décadas de uso.
você está” nem mede “quão importante
é a diferença”. Então, o que o p-valor
mede? Mede a probabilidade de você errar dizendo que uma droga
tem efeito quando não tem. Então os pesquisadores querem um p-valor pequeno. Quão pequeno
deve ser o p-valor para que você rejeite a hipótese da nulidade? Se p-valor é menor que 0,05, a regra é dizer que o efeito da droga é estatisticamente significante. A
escolha do valor 0,05 de probabilidade não tem qualquer razão matemática; é
apenas um valor que se tornou convencional depois de décadas e décadas de uso.
Vamos pensar mais um pouco: se você tivesse testado
a nova droga em uma única pessoa, o fato de ela ter um resfriado de curta
duração não provaria nada, mas se o experimento descrito tivesse sido feito com
um milhão de pessoas e aquelas que receberam a nova droga tivessem tido resfriados em média com dois dias a menos que os controles, seria
razoável acreditar que a nova droga realmente diminui a duração de um resfriado.
Então – como você já deve estar pensando – o p-valor depende do tamanho da amostra e
do tamanho do efeito. Portanto, o p-valor tem limitações. Você pode obter um p-valor pequeno medindo um efeito
dramático. Mas também pode obter um p-valor pequeno conduzindo um experimento bem controlado, ou
com amostras muito grandes. Em resumo, significância estatística não quer dizer
resultado prático. Por outro lado, um efeito real pode passar despercebido
porque seus dados são dispersos e foram mal coletados. Então, p-valor pequeno não confere
validade a um trabalho. Um trabalho só é valido se for válido por inteiro.
a nova droga em uma única pessoa, o fato de ela ter um resfriado de curta
duração não provaria nada, mas se o experimento descrito tivesse sido feito com
um milhão de pessoas e aquelas que receberam a nova droga tivessem tido resfriados em média com dois dias a menos que os controles, seria
razoável acreditar que a nova droga realmente diminui a duração de um resfriado.
Então – como você já deve estar pensando – o p-valor depende do tamanho da amostra e
do tamanho do efeito. Portanto, o p-valor tem limitações. Você pode obter um p-valor pequeno medindo um efeito
dramático. Mas também pode obter um p-valor pequeno conduzindo um experimento bem controlado, ou
com amostras muito grandes. Em resumo, significância estatística não quer dizer
resultado prático. Por outro lado, um efeito real pode passar despercebido
porque seus dados são dispersos e foram mal coletados. Então, p-valor pequeno não confere
validade a um trabalho. Um trabalho só é valido se for válido por inteiro.
Excelente explicação professora Sonia, estou aprendendo bastante com seus livros e sua didática exceptional.
Obrigada, Jayron, voltar ao blog