Ucząc się przebiegu próbkowania, spotykam następujące dwa stwierdzenia:
1) Błąd próbkowania prowadzi głównie do zmienności, błędy nie próbkowania prowadzą do stronniczości.
2) Z powodu błędu próbkowania próbka jest często dokładniejsza niż CENSUS.
Nie wiem, jak zrozumieć te dwa stwierdzenia. Jaka jest podstawowa logika uzyskania tych dwóch instrukcji?
estimation
sampling
survey
bias
użytkownik785099
źródło
źródło
Odpowiedzi:
Próbka może być dokładniejsza niż (próba) spisu, jeśli fakt, że ćwiczenie jest spisem, zwiększa błąd systematyczny wynikający z błędu braku próbkowania. Może się tak zdarzyć na przykład, jeśli spis powszechny generuje niekorzystną kampanię polityczną opowiadającą się za brakiem odpowiedzi (coś mniej prawdopodobnego w przypadku próby). Chyba że tak się stanie, nie rozumiem, dlaczego próba miałaby mieć mniej błędów nie-próbkowania niż spis; i z definicji będzie miał więcej błędów próbkowania. Więc poza dość niezwykłymi okolicznościami powiedziałbym, że spis będzie dokładniejszy niż próbka.
Zastanów się nad powszechnym źródłem błędu nie pobierania próbek - systematycznym brakiem odpowiedzi, np. Przez określoną grupę społeczno-demograficzną. Jeśli ludzie z grupy X prawdopodobnie odmówią spisu, równie dobrze mogą odrzucić próbkę. Nawet poststratification próbkowania na wadze reakcje tych ludzi z grupy X kim ma przekonać, aby odpowiedzieć na Twoje pytania, nadal masz problem, bo te mogą być bardzo segment X, które są pro-ankiet. Nie ma realnego rozwiązania tego problemu poza zachowaniem jak największej ostrożności przy projektowaniu przyrządu i metody dostawy.
Na marginesie, zwraca to uwagę na jeden możliwy problem, który może sprawić, że próba spisu ludności będzie mniej dokładna niż próbka. Próbki rutynowo mają wagę po stratyfikacji po populacji, co łagodzi problemy z uprzedzeniami wynikające z takich kwestii, jak w moim powyższym akapicie. Próba spisu, który nie daje 100% zwrotu, jest po prostu dużą próbką i zasadniczo powinna podlegać temu samemu przetwarzaniu; ale dlatego, że jest postrzegany jako „spisu” (raczej niż usiłowanie spisu) to może być zaniedbana. Tak więc spis może być mniej dokładny niż odpowiednio ważona próbka. Ale w tym przypadku problemem jest technika przetwarzania analitycznego (lub pominięcie), a nie coś nieodłącznego od tego, że jest to próba spisu.
Wydajność to inna sprawa - jak mówi Michelle, dobrze przeprowadzona próbka będzie bardziej wydajna niż spis powszechny i może mieć wystarczającą dokładność do celów praktycznych.
źródło
Myślę, że istnieją praktyczne sytuacje, w których próbka może być dokładniejsza. Na przykład przeprowadziliśmy badanie w mieście w kraju rozwijającym się, w którym wiele osób mieszka w niezarejestrowanych miejscach, a ludzie stale przyjeżdżają i odchodzą, a także nieśmiało reagują. Próba przeprowadzenia spisu ludności wymagałaby wysiłku Herkulesa, a biorąc pod uwagę nasze zasoby, należałoby to zrobić w ciągu kilku miesięcy, kiedy ludzie przychodzili i odchodzili. Dzięki próbce moglibyśmy spędzić więcej czasu, upewniając się, że zbliżyliśmy się do pełnej możliwej odpowiedzi - ponieważ moglibyśmy wyjaśnić, co robimy - i moglibyśmy to zrobić w znacznie krótszym okresie czasu, który pozbyłby się problemu osób wchodzących i wychodzących z miasta.
Więc myślę, że odpowiedź zależy bardziej od logistyki tego, co robisz, oraz różnych źródeł błędów niezwiązanych z próbkowaniem.
W rzeczywistości innym źródłem było to, że nasza ankieta była złożona i musieliśmy przeszkolić ankieterów, a znalezienie i sfinansowanie wystarczającej liczby przeszkolonych ankieterów w tym kraju byłoby bardzo trudne.
źródło
Podczas pobierania próbek do badań ankietowych ludzie często cierpią zarówno na błąd próbkowania (otrzymujemy tylko szacunki), jak i na błąd próbkowania (np. Ludzie odmawiają odpowiedzi na ankietę, a nie próbkują do próby, której potrzebujesz ze względów praktycznych, takich jak koszt lub niemożność dokładnego zidentyfikowania populacji w celu pobrania próby). Wykonane poprawnie, przy wysokim wskaźniku odpowiedzi, próbka jest bardziej wydajna niż spis. Nieprawidłowe jest jednak założenie, że żadna próbka nie zawiera błędu próbkowania.
źródło
Myślę, że kluczem jest odpowiedź Petera Ellisa: „próba”. Kiedy próbujesz prawidłowo, spocisz szczegóły braku odpowiedzi, obliczysz warstwy i wyszukasz je itp. Kiedy decydujesz się na spis, łatwo zignorować te problemy, ponieważ dostajesz „wszystkich”. Problem w tym, że prawdopodobnie nie dostajesz wszystkich, ale nie myślisz o tym, kogo tak naprawdę nie otrzymujesz.
Istnieją również problemy statystyczne z bardzo dużymi próbami (jako odsetek populacji próby). Nie jestem wystarczająco zaawansowany, aby je zrozumieć, ale przynajmniej masz problemy z obliczeniami wariancji. (Pakiety takie jak R
survey
kompensują takie rzeczy w dużych subpopulacjach ankiety i właśnie o tym dowiedziałem się po raz pierwszy.)Drugim problemem jest to, że jeśli błąd niepróbowany obejmuje problemy wynikające z kontroli jakości na różnych etapach procesu, posiadanie znacznie większej ilości danych (spisu) znacznie utrudniłoby uzyskanie takiego poziomu kontroli jakości, jaki miałbyś (przy tym samym zasoby) na mniejszym zestawie danych (próbka).
Wyobraź sobie, że dysponowałeś zasobami (finansowymi i kadrowymi), z których skorzystało Biuro Spisu Powszechnego USA w celu przeprowadzenia spisu ludności, ale robiłeś tylko ankietę wśród 1000 losowych dorosłych. Myślę, że miałbyś znacznie lepszą kontrolę jakości i znacznie lepszą analizę problemów i samych danych.
źródło
Myślałem, że powód próbkowania może być (nie jest) dokładniejszy niż w rzeczywistości spis miał faktycznie jeden składnik, który można przypisać do natury spisu w porównaniu z próbką, i który można przypisać jako przyczynę spisu potencjalnie mającego większe uprzedzenie (oczywiście brak pobierania próbek, z definicji): w spisie powszechnym liczba ludności jest na ogół nieznana. Tak więc minimalizowanie lub kontrolowanie stronniczości braku odpowiedzi jest znacznie trudniejsze niż w przypadku próbki o znanej wielkości.
źródło