Dlaczego twierdzi się, że próbka jest często dokładniejsza niż spis?

13

Ucząc się przebiegu próbkowania, spotykam następujące dwa stwierdzenia:

1) Błąd próbkowania prowadzi głównie do zmienności, błędy nie próbkowania prowadzą do stronniczości.

2) Z powodu błędu próbkowania próbka jest często dokładniejsza niż CENSUS.

Nie wiem, jak zrozumieć te dwa stwierdzenia. Jaka jest podstawowa logika uzyskania tych dwóch instrukcji?

użytkownik785099
źródło
5
Prawda spisu albo próbował jeden?
kardynał

Odpowiedzi:

16

Próbka może być dokładniejsza niż (próba) spisu, jeśli fakt, że ćwiczenie jest spisem, zwiększa błąd systematyczny wynikający z błędu braku próbkowania. Może się tak zdarzyć na przykład, jeśli spis powszechny generuje niekorzystną kampanię polityczną opowiadającą się za brakiem odpowiedzi (coś mniej prawdopodobnego w przypadku próby). Chyba że tak się stanie, nie rozumiem, dlaczego próba miałaby mieć mniej błędów nie-próbkowania niż spis; i z definicji będzie miał więcej błędów próbkowania. Więc poza dość niezwykłymi okolicznościami powiedziałbym, że spis będzie dokładniejszy niż próbka.

Zastanów się nad powszechnym źródłem błędu nie pobierania próbek - systematycznym brakiem odpowiedzi, np. Przez określoną grupę społeczno-demograficzną. Jeśli ludzie z grupy X prawdopodobnie odmówią spisu, równie dobrze mogą odrzucić próbkę. Nawet poststratification próbkowania na wadze reakcje tych ludzi z grupy X kim ma przekonać, aby odpowiedzieć na Twoje pytania, nadal masz problem, bo te mogą być bardzo segment X, które są pro-ankiet. Nie ma realnego rozwiązania tego problemu poza zachowaniem jak największej ostrożności przy projektowaniu przyrządu i metody dostawy.

Na marginesie, zwraca to uwagę na jeden możliwy problem, który może sprawić, że próba spisu ludności będzie mniej dokładna niż próbka. Próbki rutynowo mają wagę po stratyfikacji po populacji, co łagodzi problemy z uprzedzeniami wynikające z takich kwestii, jak w moim powyższym akapicie. Próba spisu, który nie daje 100% zwrotu, jest po prostu dużą próbką i zasadniczo powinna podlegać temu samemu przetwarzaniu; ale dlatego, że jest postrzegany jako „spisu” (raczej niż usiłowanie spisu) to może być zaniedbana. Tak więc spis może być mniej dokładny niż odpowiednio ważona próbka. Ale w tym przypadku problemem jest technika przetwarzania analitycznego (lub pominięcie), a nie coś nieodłącznego od tego, że jest to próba spisu.

Wydajność to inna sprawa - jak mówi Michelle, dobrze przeprowadzona próbka będzie bardziej wydajna niż spis powszechny i ​​może mieć wystarczającą dokładność do celów praktycznych.

Peter Ellis
źródło
1
+1 To odzwierciedla przemyślany i pouczający wysiłek, aby zrozumieć pytanie i co go motywuje.
whuber
Myślę, że różnica między próbką a niekompletnym spisem powszechnym to coś więcej niż po prostu większa skłonność do ważenia odpowiedzi w próbce. W końcu liczby ważące muszą skądś pochodzić - spis lub próbkowanie wyższej jakości.
Jonathan
Naprawdę chciałbym podkreślić możliwość zminimalizowania stronniczości braku odpowiedzi w próbie. Bardzo niewiele spisów jest w stanie skutecznie przejść po uprzedzeniu braku odpowiedzi - nawet zmagania spisowe w USA. Być może jedynymi, które potrafią to zrobić dobrze, są badania satysfakcji pracowników. O wiele bardziej opłacalne jest pójście po braku odpowiedzi w ankiecie z próbą.
Jonathan
Podczas spisu może być (będzie) kosztowna kontrola jakości każdego wywiadu / ...! Tak często jakość danych będzie lepsza w próbce niż w spisie.
kjetil b halvorsen
5

Myślę, że istnieją praktyczne sytuacje, w których próbka może być dokładniejsza. Na przykład przeprowadziliśmy badanie w mieście w kraju rozwijającym się, w którym wiele osób mieszka w niezarejestrowanych miejscach, a ludzie stale przyjeżdżają i odchodzą, a także nieśmiało reagują. Próba przeprowadzenia spisu ludności wymagałaby wysiłku Herkulesa, a biorąc pod uwagę nasze zasoby, należałoby to zrobić w ciągu kilku miesięcy, kiedy ludzie przychodzili i odchodzili. Dzięki próbce moglibyśmy spędzić więcej czasu, upewniając się, że zbliżyliśmy się do pełnej możliwej odpowiedzi - ponieważ moglibyśmy wyjaśnić, co robimy - i moglibyśmy to zrobić w znacznie krótszym okresie czasu, który pozbyłby się problemu osób wchodzących i wychodzących z miasta.

Więc myślę, że odpowiedź zależy bardziej od logistyki tego, co robisz, oraz różnych źródeł błędów niezwiązanych z próbkowaniem.

W rzeczywistości innym źródłem było to, że nasza ankieta była złożona i musieliśmy przeszkolić ankieterów, a znalezienie i sfinansowanie wystarczającej liczby przeszkolonych ankieterów w tym kraju byłoby bardzo trudne.

Dan
źródło
5

Podczas pobierania próbek do badań ankietowych ludzie często cierpią zarówno na błąd próbkowania (otrzymujemy tylko szacunki), jak i na błąd próbkowania (np. Ludzie odmawiają odpowiedzi na ankietę, a nie próbkują do próby, której potrzebujesz ze względów praktycznych, takich jak koszt lub niemożność dokładnego zidentyfikowania populacji w celu pobrania próby). Wykonane poprawnie, przy wysokim wskaźniku odpowiedzi, próbka jest bardziej wydajna niż spis. Nieprawidłowe jest jednak założenie, że żadna próbka nie zawiera błędu próbkowania.

Michelle
źródło
+1. Dziękujemy za odpowiedź Michelle i witamy w naszej społeczności!
whuber
1
Cześć Whuber, miło tu być. Dzięki za powitanie. :)
Michelle,
1
@Michelle Tylko mała korekta. Błąd próbkowania to błąd wynikający z braku wybrania całej populacji - czyli błąd wynikający z użycia próbki do wnioskowania o cechach populacji. Błąd braku próbkowania to wszystko inne, w tym brak odpowiedzi, brak utworzenia odpowiedniej ramki próbkowania, błędy pomiaru itp.
Brett
3

Myślę, że kluczem jest odpowiedź Petera Ellisa: „próba”. Kiedy próbujesz prawidłowo, spocisz szczegóły braku odpowiedzi, obliczysz warstwy i wyszukasz je itp. Kiedy decydujesz się na spis, łatwo zignorować te problemy, ponieważ dostajesz „wszystkich”. Problem w tym, że prawdopodobnie nie dostajesz wszystkich, ale nie myślisz o tym, kogo tak naprawdę nie otrzymujesz.

Istnieją również problemy statystyczne z bardzo dużymi próbami (jako odsetek populacji próby). Nie jestem wystarczająco zaawansowany, aby je zrozumieć, ale przynajmniej masz problemy z obliczeniami wariancji. (Pakiety takie jak R surveykompensują takie rzeczy w dużych subpopulacjach ankiety i właśnie o tym dowiedziałem się po raz pierwszy.)

Drugim problemem jest to, że jeśli błąd niepróbowany obejmuje problemy wynikające z kontroli jakości na różnych etapach procesu, posiadanie znacznie większej ilości danych (spisu) znacznie utrudniłoby uzyskanie takiego poziomu kontroli jakości, jaki miałbyś (przy tym samym zasoby) na mniejszym zestawie danych (próbka).

Wyobraź sobie, że dysponowałeś zasobami (finansowymi i kadrowymi), z których skorzystało Biuro Spisu Powszechnego USA w celu przeprowadzenia spisu ludności, ale robiłeś tylko ankietę wśród 1000 losowych dorosłych. Myślę, że miałbyś znacznie lepszą kontrolę jakości i znacznie lepszą analizę problemów i samych danych.

Wayne
źródło
2

Myślałem, że powód próbkowania może być (nie jest) dokładniejszy niż w rzeczywistości spis miał faktycznie jeden składnik, który można przypisać do natury spisu w porównaniu z próbką, i który można przypisać jako przyczynę spisu potencjalnie mającego większe uprzedzenie (oczywiście brak pobierania próbek, z definicji): w spisie powszechnym liczba ludności jest na ogół nieznana. Tak więc minimalizowanie lub kontrolowanie stronniczości braku odpowiedzi jest znacznie trudniejsze niż w przypadku próbki o znanej wielkości.

Jerzy
źródło