Jak decydujesz o wielkości próby podczas odpytywania dużej populacji?

15

W Australii odbywają się obecnie wybory, a co zrozumiałe, media codziennie informują o nowych wynikach ankiety politycznej. W jakim kraju liczącym 22 miliony należy pobrać próbki, aby uzyskać statystycznie prawidłowy wynik?

Czy to możliwe, że użycie zbyt dużej próbki może wpłynąć na wyniki, czy też ważność statystyczna wzrasta monotonicznie wraz z wielkością próbki?

brotchie
źródło

Odpowiedzi:

13

Wielkość próby niewiele zależy od wielkości populacji, co dla wielu jest sprzeczne z intuicją.

Większość firm głosujących wykorzystuje 400 lub 1000 osób w swoich próbkach.

Jest ku temu powód:

Próbka o wielkości 400 da przedział ufności +/- 5% 19 razy na 20 (95%)

Próbka o wielkości 1000 da przedział ufności +/- 3% 19 razy na 20 (95%)

Podczas pomiaru proporcji blisko 50%.

Ten kalkulator nie jest zły:

http://www.raosoft.com/samplesize.html

Neil McGuigan
źródło
6
Należy jednak pamiętać, że wszystko to opiera się na próbkowaniu z jednorodnej populacji. Jeśli masz niejednorodną populację (np. Różne proporcje dla różnych podgrup, pobieranie próbek rzadkich części populacji), to oszacowanie tej wariancji nie jest tak wiarygodne. Szacunki, które tu faktycznie obliczasz, są (myślę) dla populacji, którą reprezentuje twoja próbka. Pytanie brzmi: czy ta populacja naprawdę Cię interesuje?
probabilityislogic
9

ππNNp

pNπ

CI=[pksd(p),  p+ksd(p)]
k

MoE=ksd(p)

sd(p)p=Xi/NXi=1i0

Xi

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
sd(p)=π(1π)N
πsd(p)π=0.5
sd(p)=0.50.5/N=0.5/N
NN

k=1.96N=1000

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
NNπ=50%
Społeczność
źródło
2

Z grubsza uogólniając, za każdym razem, gdy próbkujesz część ludzi w populacji, otrzymasz inną odpowiedź, niż jeśli spróbujesz ponownie tę samą liczbę (ale prawdopodobnie różne osoby).

Więc jeśli chcesz dowiedzieć się, ile osób w Australii ma> = 30 lat, a jeśli prawdziwa część (Bóg powiedział nam) akurat ma dokładnie 0,4, a jeśli zapytamy 100 osób, to średniej liczby możemy się spodziewać powiedzmy, że są> = 30 to 100 x 0,4 = 40, a standardowe odchylenie tej liczby wynosi +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 lub 4,9% (rozkład dwumianowy).

Ponieważ pierwiastek kwadratowy istnieje, gdy wielkość próbki wzrośnie 100 razy, odchylenie standardowe zmniejsza się 10 razy. Ogólnie rzecz biorąc, aby zmniejszyć niepewność takiego pomiaru o współczynnik 10, musisz pobrać próbkę 100 razy więcej osób. Jeśli więc zapytasz 100 x 100 = 10000 osób, odchylenie standardowe wzrośnie do 49 lub, procentowo, do 0,49%.

Mike Dunlavey
źródło