Ankiety tam (powiedzmy, Gallup) próbują absurdalnie małej liczby osób w porównaniu do wielkości populacji (np. Może tysiąc osób na setki milionów).
Teraz, dla mnie, próbkowanie populacji jako sposób oszacowania statystyk populacji ma sens, gdy masz silny powód, by sądzić, że próbki są reprezentatywne dla populacji (lub, podobnie, innych próbek ) .
Na przykład pobieranie próbek ma oczywiście sens w badaniach medycznych, ponieważ wiemy z góry, że wszyscy ludzie mają dość podobne genomy i że ten czynnik powoduje, że ich ciała zachowują się podobnie.
Zauważ, że to nie jest jakieś luźne sprzężenie - genom jest cholernie silnym czynnikiem determinującym .
Jednak po prostu nie rozumiem, co uzasadnia stosowanie niskiej wielkości próby do takich celów, jak ankiety polityczne.
Mógłbym kupić, że może 80-90% ludzi w danym sąsiedztwie głosuje podobnie na prezydenta (z powodu podobnych środowisk społeczno-ekonomicznych / edukacyjnych), ale nie wydaje się to uzasadniać absurdalnie małej liczby próbek. Nie ma dosłownie żadnego istotnego powodu (przynajmniej dla mnie), dlaczego 1000 losowych wyborców powinno się zachowywać jak 200 milionów innych wyborców.
Dla mnie potrzebujesz przynajmniej (powiedzmy) 100 × tej kwoty. Dlaczego? Mogę wymyślić kilka powodów, np .:
W Kalifornii jest około 22 000 obrębów . Ludzie dorastają tak odmiennie pod względem ekonomicznym i edukacyjnym, że sonda wielkości 1000 wydaje się śmiesznie mała. Jak podsumować całe obwody średnio z <1 osobą?
Ludzie na ogół nie mogą zmieniać reakcji swoich ciał na leki, ale mogą zmieniać swoje opinie na temat polityki, po prostu myśląc o tym. Z mojego punktu widzenia w medycynie nie ma czynnika wymuszającego DNA w medycynie. W najlepszym razie wyobrażam sobie, że powinny istnieć małe kieszenie korelacji.
Ale jakoś takie sondaże wydają się ... działać w każdym razie? A przynajmniej wydaje się, że ludzie tak myślą?
Ale dlaczego mieliby? Może po prostu zasadniczo nie rozumiem próbkowania ? Czy ktoś może wyjaśnić?
Po prostu nie mogę poważnie potraktować żadnej z ankiet, które widzę, ale wydaje mi się, że jestem mniej więcej sam w tym ...
źródło
Odpowiedzi:
Wygląda na to, że wyobrażasz sobie bardzo prosty model próbkowania.
Najprostszy model próbkowania nazywa się trafnie prostym losowym próbkowaniem . Wybierasz podzbiór populacji (np. Wybierając losowo numery telefonów) i pytasz, kto odpowie, jak głosuje. Jeśli 487 mówi, że Clinton, 463 mówi, że Trump, a reszta daje jakąś zwariowaną odpowiedź, to firma ankietowa poinformuje, że 49% głosujących woli Clintona, a 46% woli Trumpa. Jednak firmy głosujące robią znacznie więcej. Prosta próbka losowa przypisuje jednakową wagę każdemu punktowi danych. Załóżmy jednak, że twoja próbka zawiera - przypadkowo - 600 mężczyzn i 400 kobiet, co wyraźnie nie jest reprezentatywne dla całej populacji. Jeśli mężczyźni jako grupa pochylają się w jedną stronę, podczas gdy kobiety wychylają się w drugą stronę, wpłynie to na twój wynik. Ponieważ jednak mamy dość dobre statystyki demograficzne, możesz ważyć *odpowiedzi, licząc odpowiedzi kobiet nieco więcej, a mężczyzn nieco mniej, aby ważona odpowiedź lepiej reprezentowała populację. Organizacje ankietowe mają bardziej skomplikowane modele ważenia, które mogą sprawić, że niereprezentatywna próbka będzie bardziej reprezentatywna.
Pomysł ważenia odpowiedzi z próby ma dość solidne podstawy statystyczne, ale istnieje pewna elastyczność w wyborze czynników wpływających na wagi. Większość ankieterów zmienia wagę w oparciu o czynniki demograficzne, takie jak płeć, wiek i rasa. Biorąc to pod uwagę, możesz pomyśleć, że należy również podać identyfikację partii (Demokratyczną, Republikańską itp.), Ale okazuje się, że większość firm wyborczych nie używa jej w swoich wagach: identyfikacja partii (samo) wiąże się z wyborem wyborcy w sposób, który czyni go mniej użytecznym.
Wiele strojów wyborczych zgłasza również swoje wyniki wśród „prawdopodobnych wyborców”. W nich respondenci są wybierani lub ważeni na podstawie prawdopodobieństwa, że faktycznie pojawią się w ankietach. Model ten niewątpliwie opiera się również na danych, ale precyzyjny wybór czynników pozwala na pewną elastyczność. Na przykład uwzględnienie interakcji między kandydatem a rasą wyborcy (lub płcią) nie było rozsądne aż do 2008 lub 2016 r., Ale podejrzewam, że mają teraz pewną moc przewidywania.
Teoretycznie możesz uwzględnić różne czynniki jako czynniki ważące: preferencje muzyczne, kolor oczu itp. Jednak czynniki demograficzne są popularnym wyborem czynników ważących, ponieważ:
Ankieterzy widzą jednak te same wiadomości, co wszyscy inni i mogą w razie potrzeby dostosować zmienne wagowe.
Istnieją również pewne „czynniki krówki”, które czasami są przywoływane w celu wyjaśnienia wyników ankiety. Na przykład respondenci czasami niechętnie udzielają odpowiedzi „społecznie niepożądanych”. W Efekt Bradleya zakłada, że biali wyborcy czasem bagatelizować swoje poparcie dla białych kandydatów działających przeciwko mniejszości uniknąć pojawiające się rasistą. Jego nazwa pochodzi od Toma Bradleya, afroamerykańskiego kandydata na gubernatora, który ledwo przegrał wybory, mimo że wygodnie przewodził w sondażach.
Wreszcie masz całkowitą rację, że samo pytanie o czyjąś opinię może to zmienić. Firmy badawcze starają się pisać pytania w sposób neutralny. Aby uniknąć problemów z kolejnością możliwych odpowiedzi, nazwiska kandydatów mogą być wymienione w kolejności losowej. Wiele wersji pytania jest również czasami testowanych względem siebie. Ten efekt można również wykorzystać do nikczemnych celów w ankiecie push , w której ankieter nie jest tak naprawdę zainteresowany zbieraniem odpowiedzi, ale wywieraniem na nią wpływu. Na przykład w ankiecie push można by zapytać „Czy zagłosowałbyś na [kandydata A], nawet gdyby zgłoszono, że był on molestującym dzieckiem?”.
* Możesz również ustalić wyraźne cele dla swojej próby, na przykład obejmujące 500 mężczyzn i 500 kobiet. Nazywa się to próbkowaniem warstwowym - populacja jest podzielona na różne grupy, a następnie z każdej grupy pobiera się próbki losowo. W praktyce nie zdarza się to zbyt często w przypadku sondaży, ponieważ należałoby rozdzielić się na wiele wyczerpujących grup (np. Mężczyzn z wykształceniem wyższym w wieku 18–24 lat w Urban Texas).
źródło
Istnieje twierdzenie matematyczne zwane „prawem dużych liczb”. Wyobraź sobie, że chcesz ustalić prawdopodobieństwo pojawienia się monety. „Populacja” rzutów monetą to nieskończoność - znacznie większa niż ponad 300 000 000 osób w Stanach Zjednoczonych. Ale zgodnie z Prawem Dużych Liczb, im więcej monet wykonasz, tym dokładniejsze będzie twoje oszacowanie.
Idealna ankieta: w idealnej ankiecie ankieterzy losowo wybierają nazwiska z amerykańskiego spisu powszechnego, dowiadują się, gdzie mieszkają ci ludzie, a potem idą i pukają do drzwi. Jeśli dana osoba twierdzi, że planuje głosować, ankieter pyta, na kogo głosuje, i zapisuje swoją odpowiedź. Matematycznie zagwarantowane działanie odpytywania działa poprawnie, a wielkość błędu w pomiarze dla dowolnego poziomu ufności można łatwo obliczyć .
Oto, co oznacza błąd: Załóżmy, że w oparciu o ankietę masz 52% szans, że wygra Candidate Awesome McPerfect, z 3% błędem i 98% pewnością. Oznacza to, że możesz mieć 98% pewności, że prawdziwa część wyborców, którzy faworyzują kandydata Awesome McPerfect, wynosi od 49% do 55%.
Uwaga na temat błędu i pewności Dla danej wielkości próbki, im większa pewność siebie, tym większy będzie twój błąd. Pomyśl o tym - masz 100% pewności, że prawdziwa proporcja, która obsługuje Canditate Awesome, wynosi od 0% do 100% (możliwy największy błąd), i masz 0% pewności, że prawdziwa proporcja, która obsługuje Canditate Awesome, wynosi dokładnie 52.0932840985028390984308% (błąd zerowy). Większa pewność oznacza więcej błędów, mniejsza pewność oznacza mniej błędów. Jednak związek między pewnością a błędem NIE jest liniowy! (Zobacz: https://en.wikipedia.org/wiki/Confidence_interval )
Ankiety w prawdziwym świecie: Ponieważ drogie jest wysyłanie ankieterów helikopterem do wszystkich części kraju, aby zapukać do drzwi przypadkowych osób (chociaż chciałbym, aby tak się stało; jeśli jesteś miliarderem i widzisz to, proszę rozważ finansowanie), ankiety w prawdziwym świecie są bardziej złożone. Przyjrzyjmy się jednej z bardziej popularnych strategii - wzywaniu losowych wyborców i pytaniu ich, na kogo głosowaliby. To dobra strategia, ale ma kilka dobrze uznanych błędów:
Ponieważ różne grupy demograficzne głosują na różne sposoby, ankieterzy muszą dołożyć wszelkich starań, aby kontrolować różnice w swoich surowych danych (w zależności od tego, kto zdecydował się odebrać telefon) i wyniki faktycznych wyborów. Na przykład, jeśli 10% osób, które odebrały telefon, było Hiszpanami, ale 30% głosujących w ostatnich wyborach było Hiszpanami, to w swojej ankiecie trzykrotnie przewyższą latynoskich wyborców. Jeśli 50% osób, które odebrały telefon, było w wieku powyżej 60 lat, ale tylko 30% osób, które głosowały w ostatnich wyborach, było w wieku powyżej 60 lat, przywiążą mniejszą wagę do starszych wyborców, którzy odpowiedzieli. Nie jest idealny, ale może prowadzić do imponujących wyczynów prognoz (Nate Silver poprawnie przewidział wyniki w każdym z 50 stanów w wyborach w 2012 r., Używając statystyk,
Uwaga dla mądrych: ankieterzy robią najlepsze przewidywania, jakie potrafią, na podstawie tego, jak działało się w przeszłości. Ogólnie rzecz biorąc , rzeczy działają teraz tak samo jak w przeszłości, a przynajmniej zmiana jest na tyle powolna, że niedawna przeszłość (na której koncentrują się najbardziej) będzie przypominać teraźniejszość. Czasami jednak w elektoracie zachodzą szybkie zmiany i wszystko idzie nie tak. Być może wyborcy Trumpa są nieco mniej skłonni niż przeciętny głosujący do odebrania telefonu, a waga według danych demograficznych nie bierze tego pod uwagę. A może młodzi ludzie (którzy w przeważającej mierze popierają Hillary) są jeszcze bardziejraczej nie odbierają telefonu niż przewidują modele, a te, które odbierają telefon, są bardziej republikańskie. A może jest odwrotnie - nie wiemy. takie rzeczy to ukryte zmienne, które nie pojawiają się w często zbieranych danych demograficznych.
Mamy byłoby wiedzieć, czy wysłaliśmy ankieterów zapukać przypadkowych drzwi (hm, wyimaginowany billionare czytając to), ponieważ wtedy nie musiałby rzeczy wagowych w oparciu o dane demograficzne, ale dopiero wtedy, kciuki.
źródło
Po pierwsze, jest to poza głównymi punktami, ale warto o tym wspomnieć. W badaniu medycznym możesz mieć 1000 osób testujących lek, który można podać 10000 osobom chorym rocznie. Możesz spojrzeć na to i pomyśleć „To jest testowane na 10% populacji”, w rzeczywistości populacja nie jest 10000 osób, wszyscy jej przyszli pacjenci, więc wielkość populacji jest nieskończona. 1000 osób nie jest dużych w porównaniu z nieskończonymi potencjalnymi użytkownikami narkotyków, ale tego rodzaju badania działają. Nie ma znaczenia, czy testujesz 10%, 1% czy 0,1% populacji; ważny jest bezwzględny rozmiar próbki, a nie jej wielkość w porównaniu z populacją.
Następnie Twoim głównym celem jest to, że istnieje tak wiele mylących zmiennych, które mogą wpływać na głosowanie ludzi. Traktujesz 22000 dzielnic Kalifornii jak 22000 zmiennych, ale tak naprawdę to tylko garść zmiennych (dochód i wykształcenie, jak wspomniałeś). Nie potrzebujesz reprezentatywnej próbki z każdej dzielnicy, potrzebujesz tylko wystarczającej liczby próbek, aby pokryć różnice wynikające z dochodów, wykształcenia itp.
Edytować:
Powyższy wzór zakładał, że każda zmienna myląca jest równie ważna. Jeśli chcemy rozważyć setki rzeczy, które mogą dodać wariancję do wyników, to założenie to jest nieważne (np. Może użytkownicy Twittera wspierają jednego kandydata więcej, ale wiemy, że użycie Twittera nie jest tak ważne jak płeć).
źródło