População ou universo é conjunto de unidades sobre o qual desejamos obter informação.
Amostra é subconjunto de unidades retiradas da população para
obter a informação desejada.
obter a informação desejada.
Censo
é o levantamento de dados de toda a população.
é o levantamento de dados de toda a população.
Amostragem
é o levantamento de dados de parte da população para
obter a informação desejada.
é o levantamento de dados de parte da população para
obter a informação desejada.
Por
que se toma uma amostra?
que se toma uma amostra?
· Custo e da demora dos
censos. Avaliar toda a população pode ser
impossível para o pesquisador, porque levaria muito tempo e seria muito caro.
censos. Avaliar toda a população pode ser
impossível para o pesquisador, porque levaria muito tempo e seria muito caro.
· Há populações tão grandes que estudá-las por inteiro seria impossível.
· Fica impossível estudar
toda a população quando o estudo destrói as unidades.
toda a população quando o estudo destrói as unidades.
· O estudo cuidadoso de uma
amostra tem maior valor científico do que o estudo sumário de toda a
população.
amostra tem maior valor científico do que o estudo sumário de toda a
população.
Parâmetro é
um valor desconhecido que representa determinada característica da população.
Em uma dada população e em dado momento, o parâmetro é um valor fixo.
um valor desconhecido que representa determinada característica da população.
Em uma dada população e em dado momento, o parâmetro é um valor fixo.
Estatística é
uma quantidade calculada com os dados de uma amostra. É usada para estimar o
parâmetro correspondente, na população de onde foi retirada.
uma quantidade calculada com os dados de uma amostra. É usada para estimar o
parâmetro correspondente, na população de onde foi retirada.
Exemplo
1
1
O
trabalho é antigo1, mas perfeito para nosso exemplo. Os
pesquisadores queriam verificar se o hábito de tomar café é fator predisponente
para câncer de pâncreas. Optaram por um estudo retrospectivo, caso-controle.
Precisavam, portanto, medir a variável “proporção de pessoas que tomam muito
café” em duas populações: a de doentes e a de não doentes.
trabalho é antigo1, mas perfeito para nosso exemplo. Os
pesquisadores queriam verificar se o hábito de tomar café é fator predisponente
para câncer de pâncreas. Optaram por um estudo retrospectivo, caso-controle.
Precisavam, portanto, medir a variável “proporção de pessoas que tomam muito
café” em duas populações: a de doentes e a de não doentes.
É
obvio que os pesquisadores só poderiam trabalhar com pessoas que pudessem ter acesso.
É o chamamos de amostra não probabilística. Os pesquisadores precisavam também detalhar os critérios de
inclusão, lembrando que os participantes da pesquisa deveriam responder um
questionário. Foram consideradas elegíveis pessoas com menos de 80 anos,
brancas, residentes nos Estados Unidos da América, que não tivessem
dificuldades de linguagem e não estivessem muito doentes.
obvio que os pesquisadores só poderiam trabalhar com pessoas que pudessem ter acesso.
É o chamamos de amostra não probabilística. Os pesquisadores precisavam também detalhar os critérios de
inclusão, lembrando que os participantes da pesquisa deveriam responder um
questionário. Foram consideradas elegíveis pessoas com menos de 80 anos,
brancas, residentes nos Estados Unidos da América, que não tivessem
dificuldades de linguagem e não estivessem muito doentes.
Mas
onde achar pessoas com a doença para formar um grupo? Os pesquisadores buscaram
pessoas com a doença nos quatro hospitais onde trabalhavam. Foram identificados
598 casos de câncer de pâncreas. No entanto, não eram elegíveis:
onde achar pessoas com a doença para formar um grupo? Os pesquisadores buscaram
pessoas com a doença nos quatro hospitais onde trabalhavam. Foram identificados
598 casos de câncer de pâncreas. No entanto, não eram elegíveis:
Dos
598 casos de câncer de pâncreas identificados nos hospitais, 112, ou seja,
18,7% não atingiam os critérios de elegibilidade. Os pesquisadores começaram a
buscar os pacientes com câncer, mas 20 já haviam morrido e 35 tinham tido alta.
Dos que estavam hospitalizados, 26 se recusaram a participar da pesquisa. Então a pesquisa começou com 405
participantes. No entanto, respondidos os questionários, os pesquisadores ainda
houveram por bem descartar 16 respondentes, por não achá-los confiáveis.
598 casos de câncer de pâncreas identificados nos hospitais, 112, ou seja,
18,7% não atingiam os critérios de elegibilidade. Os pesquisadores começaram a
buscar os pacientes com câncer, mas 20 já haviam morrido e 35 tinham tido alta.
Dos que estavam hospitalizados, 26 se recusaram a participar da pesquisa. Então a pesquisa começou com 405
participantes. No entanto, respondidos os questionários, os pesquisadores ainda
houveram por bem descartar 16 respondentes, por não achá-los confiáveis.
Da amostra configurada – a amostra de 598
possíveis pacientes que os pesquisadores pretendiam acessar – apenas 389
participaram efetivamente da pesquisa, ou seja, 65%. Não havia sido calculado o
tamanho da amostra para cada grupo – não era usual na época – mas veja a perda
não da amostra, mas da configuração inicial.
possíveis pacientes que os pesquisadores pretendiam acessar – apenas 389
participaram efetivamente da pesquisa, ou seja, 65%. Não havia sido calculado o
tamanho da amostra para cada grupo – não era usual na época – mas veja a perda
não da amostra, mas da configuração inicial.
Como
o estudo foi planejado para ser caso-controle, obtidas as respostas dos 389
casos, foi preciso buscar controles, em tudo similares aos casos, exceto pelo
fato de não ter a doença.
o estudo foi planejado para ser caso-controle, obtidas as respostas dos 389
casos, foi preciso buscar controles, em tudo similares aos casos, exceto pelo
fato de não ter a doença.
Amostras
diferentes tomadas da mesma população apresentam resultados diferentes?
diferentes tomadas da mesma população apresentam resultados diferentes?
Sem
dúvida. Cada amostra fornece uma estatística, mas todas devem estar em torno do
parâmetro.
dúvida. Cada amostra fornece uma estatística, mas todas devem estar em torno do
parâmetro.
Erro
de amostragem é a diferença entre a estatística (resultado obtido da amostra)
e o parâmetro (que seria obtido se fosse avaliada toda a população).
de amostragem é a diferença entre a estatística (resultado obtido da amostra)
e o parâmetro (que seria obtido se fosse avaliada toda a população).
Exemplo
2
2
Veja
aqui o exemplo de uma população muito pequena, isto é, de quatro unidades, da
qual ninguém pensaria em tomar uma amostra de duas unidades para estimar uma
estatística. Mas vamos fazer isso, porque, se tivéssemos uma população de
30.000 pessoas para tirar dela amostras de 100, a matemática seria a mesma. Só
que o trabalho de cálculo seria muito maior.
aqui o exemplo de uma população muito pequena, isto é, de quatro unidades, da
qual ninguém pensaria em tomar uma amostra de duas unidades para estimar uma
estatística. Mas vamos fazer isso, porque, se tivéssemos uma população de
30.000 pessoas para tirar dela amostras de 100, a matemática seria a mesma. Só
que o trabalho de cálculo seria muito maior.
Quatro
alunos de mesma idade e da mesma série fizeram uma mesma prova. As notas (e a
média dos quatro, que é a média da população) são dadas na tabela abaixo. Veja
os erros de amostragem: a primeira amostra (João e José) tem erro +3, a quinta
amostra (José e Pedro) tem erro -2.
alunos de mesma idade e da mesma série fizeram uma mesma prova. As notas (e a
média dos quatro, que é a média da população) são dadas na tabela abaixo. Veja
os erros de amostragem: a primeira amostra (João e José) tem erro +3, a quinta
amostra (José e Pedro) tem erro -2.
Veja
agora as amostras possíveis de tamanhos dois, com reposição (porque quem sai
para uma amostra é reposto na população e pode sair em outra amostra), com as
respectivas médias e a média dessas médias.
agora as amostras possíveis de tamanhos dois, com reposição (porque quem sai
para uma amostra é reposto na população e pode sair em outra amostra), com as
respectivas médias e a média dessas médias.
A média das médias das amostras é 5, que é a
mesma média da população. Isto NÃO é coincidência. Se de uma população finita
você tirar todas as amostras possíveis de tamanho n, a média dessas amostras
será igual à média da população. Daí a importância de ter muitas amostras.
mesma média da população. Isto NÃO é coincidência. Se de uma população finita
você tirar todas as amostras possíveis de tamanho n, a média dessas amostras
será igual à média da população. Daí a importância de ter muitas amostras.
Referência
1. MacMahon, B et allii. Coffee and cancer of the pancreas.
The
New England of Medicine, March 12, 1981.
New England of Medicine, March 12, 1981.