Dlaczego / czy (?) Statystyczne próbkowanie powinno działać w polityce (np. Gallup)?

14

Ankiety tam (powiedzmy, Gallup) próbują absurdalnie małej liczby osób w porównaniu do wielkości populacji (np. Może tysiąc osób na setki milionów).

Teraz, dla mnie, próbkowanie populacji jako sposób oszacowania statystyk populacji ma sens, gdy masz silny powód, by sądzić, że próbki są reprezentatywne dla populacji (lub, podobnie, innych próbek ) .

Na przykład pobieranie próbek ma oczywiście sens w badaniach medycznych, ponieważ wiemy z góry, że wszyscy ludzie mają dość podobne genomy i że ten czynnik powoduje, że ich ciała zachowują się podobnie.
Zauważ, że to nie jest jakieś luźne sprzężenie - genom jest cholernie silnym czynnikiem determinującym .

Jednak po prostu nie rozumiem, co uzasadnia stosowanie niskiej wielkości próby do takich celów, jak ankiety polityczne.

Mógłbym kupić, że może 80-90% ludzi w danym sąsiedztwie głosuje podobnie na prezydenta (z powodu podobnych środowisk społeczno-ekonomicznych / edukacyjnych), ale nie wydaje się to uzasadniać absurdalnie małej liczby próbek. Nie ma dosłownie żadnego istotnego powodu (przynajmniej dla mnie), dlaczego 1000 losowych wyborców powinno się zachowywać jak 200 milionów innych wyborców.

Dla mnie potrzebujesz przynajmniej (powiedzmy) 100 × tej kwoty. Dlaczego? Mogę wymyślić kilka powodów, np .:

  1. W Kalifornii jest około 22 000 obrębów . Ludzie dorastają tak odmiennie pod względem ekonomicznym i edukacyjnym, że sonda wielkości 1000 wydaje się śmiesznie mała. Jak podsumować całe obwody średnio z <1 osobą?

  2. Ludzie na ogół nie mogą zmieniać reakcji swoich ciał na leki, ale mogą zmieniać swoje opinie na temat polityki, po prostu myśląc o tym. Z mojego punktu widzenia w medycynie nie ma czynnika wymuszającego DNA w medycynie. W najlepszym razie wyobrażam sobie, że powinny istnieć małe kieszenie korelacji.

Ale jakoś takie sondaże wydają się ... działać w każdym razie? A przynajmniej wydaje się, że ludzie tak myślą?
Ale dlaczego mieliby? Może po prostu zasadniczo nie rozumiem próbkowania ? Czy ktoś może wyjaśnić?
Po prostu nie mogę poważnie potraktować żadnej z ankiet, które widzę, ale wydaje mi się, że jestem mniej więcej sam w tym ...

użytkownik541686
źródło
4
„pobieranie próbek ma oczywiście sens w badaniach medycznych, ponieważ wiemy z góry, że wszyscy ludzie mają dość podobne genomy” Nie mam wykształcenia medycznego, ale czy naprawdę nasze DNA różni się mniej niż nasze poglądy polityczne? Jeśli tak, to dlaczego tak trudno jest studiować genetykę i dlaczego jeszcze jej nie zrozumieliśmy? Założę się, że jeśli weźmiesz dwie przypadkowe osoby, wówczas będą one miały większe szanse na takie same poglądy polityczne, niż na to samo DNA.
Tim
3
@Tim: „Założę się, że jeśli weźmiesz dwie przypadkowe osoby, wówczas będą miały większe szanse na takie same poglądy polityczne, a potem na to samo DNA”. Ile chcesz postawić? google.com/search?q=dna+similarity+between+humans
user541686
2
Ale nie jest to różnica 0,5% Najważniejszą rzeczą podczas dokonywania takich porównań? Ponadto dzielimy 60% genów z muchami , więc myślę, że moglibyśmy próbować ludzi i muchy wymiennie do badań medycznych? Dla porównania: w 2008 roku Obama uzyskał 53% głosów w wyborach prezydenckich w USA. Co więcej, twierdzę, że badając ratujący życie, ale potencjalnie niebezpieczny lek, powinieneś być bardziej ostrożny przy pobieraniu próbek niż podczas badań nad preferencjami do stosowania mydła produkowanego przez firmę A vs B lub do gromadzenia opinii.
Tim
2
@ user2338816: „To przekonujące, ponieważ historycznie było dokładne” mniej przypomina matematykę, a bardziej naukę. Jestem całkowicie skłonny kupować go z powodów naukowych (ponieważ tak się dzieje), ale nie z powodów czysto matematycznych (opartych na dowodach).
user541686,
1
Zakwestionowałbym (ostrożne) twierdzenie, że ankiety działają w wyborach. Nie pamiętam, aby ankiety były zbliżone do faktycznych wyników wyborów, z których pochodzę. Jest po prostu zbyt wiele czynników, których tak naprawdę nie można wziąć pod uwagę - na przykład przy naszej ~ 60% frekwencji masz prawie taką samą szansę na przesłuchanie kogoś, kto nie będzie głosował, niż tego, kto nie jest. Udział w ankiecie wymaga mniej wysiłku niż głosowanie, a czasem nawet za to dostajesz zapłatę. Niektóre partie mają znacznie wyższą frekwencję niż inne (jak partia komunistyczna). Musisz przytoczyć odchylenie, a także „wyniki” w każdym próbkowaniu.
Luaan,

Odpowiedzi:

13

Wygląda na to, że wyobrażasz sobie bardzo prosty model próbkowania.

Najprostszy model próbkowania nazywa się trafnie prostym losowym próbkowaniem . Wybierasz podzbiór populacji (np. Wybierając losowo numery telefonów) i pytasz, kto odpowie, jak głosuje. Jeśli 487 mówi, że Clinton, 463 mówi, że Trump, a reszta daje jakąś zwariowaną odpowiedź, to firma ankietowa poinformuje, że 49% głosujących woli Clintona, a 46% woli Trumpa. Jednak firmy głosujące robią znacznie więcej. Prosta próbka losowa przypisuje jednakową wagę każdemu punktowi danych. Załóżmy jednak, że twoja próbka zawiera - przypadkowo - 600 mężczyzn i 400 kobiet, co wyraźnie nie jest reprezentatywne dla całej populacji. Jeśli mężczyźni jako grupa pochylają się w jedną stronę, podczas gdy kobiety wychylają się w drugą stronę, wpłynie to na twój wynik. Ponieważ jednak mamy dość dobre statystyki demograficzne, możesz ważyć *odpowiedzi, licząc odpowiedzi kobiet nieco więcej, a mężczyzn nieco mniej, aby ważona odpowiedź lepiej reprezentowała populację. Organizacje ankietowe mają bardziej skomplikowane modele ważenia, które mogą sprawić, że niereprezentatywna próbka będzie bardziej reprezentatywna.

Pomysł ważenia odpowiedzi z próby ma dość solidne podstawy statystyczne, ale istnieje pewna elastyczność w wyborze czynników wpływających na wagi. Większość ankieterów zmienia wagę w oparciu o czynniki demograficzne, takie jak płeć, wiek i rasa. Biorąc to pod uwagę, możesz pomyśleć, że należy również podać identyfikację partii (Demokratyczną, Republikańską itp.), Ale okazuje się, że większość firm wyborczych nie używa jej w swoich wagach: identyfikacja partii (samo) wiąże się z wyborem wyborcy w sposób, który czyni go mniej użytecznym.

Wiele strojów wyborczych zgłasza również swoje wyniki wśród „prawdopodobnych wyborców”. W nich respondenci są wybierani lub ważeni na podstawie prawdopodobieństwa, że ​​faktycznie pojawią się w ankietach. Model ten niewątpliwie opiera się również na danych, ale precyzyjny wybór czynników pozwala na pewną elastyczność. Na przykład uwzględnienie interakcji między kandydatem a rasą wyborcy (lub płcią) nie było rozsądne aż do 2008 lub 2016 r., Ale podejrzewam, że mają teraz pewną moc przewidywania.

Teoretycznie możesz uwzględnić różne czynniki jako czynniki ważące: preferencje muzyczne, kolor oczu itp. Jednak czynniki demograficzne są popularnym wyborem czynników ważących, ponieważ:

  • Empirycznie dobrze korelują z zachowaniem wyborców. Oczywiście nie ma żelaznego prawa, które „zmusza” białych mężczyzn do bycia chudym republikaninem, ale w ciągu ostatnich pięćdziesięciu lat mieli taką tendencję.
    • Wartości populacji są dobrze znane (np. Ze spisu powszechnego lub Vital Records)

Ankieterzy widzą jednak te same wiadomości, co wszyscy inni i mogą w razie potrzeby dostosować zmienne wagowe.

Istnieją również pewne „czynniki krówki”, które czasami są przywoływane w celu wyjaśnienia wyników ankiety. Na przykład respondenci czasami niechętnie udzielają odpowiedzi „społecznie niepożądanych”. W Efekt Bradleya zakłada, że biali wyborcy czasem bagatelizować swoje poparcie dla białych kandydatów działających przeciwko mniejszości uniknąć pojawiające się rasistą. Jego nazwa pochodzi od Toma Bradleya, afroamerykańskiego kandydata na gubernatora, który ledwo przegrał wybory, mimo że wygodnie przewodził w sondażach.

Wreszcie masz całkowitą rację, że samo pytanie o czyjąś opinię może to zmienić. Firmy badawcze starają się pisać pytania w sposób neutralny. Aby uniknąć problemów z kolejnością możliwych odpowiedzi, nazwiska kandydatów mogą być wymienione w kolejności losowej. Wiele wersji pytania jest również czasami testowanych względem siebie. Ten efekt można również wykorzystać do nikczemnych celów w ankiecie push , w której ankieter nie jest tak naprawdę zainteresowany zbieraniem odpowiedzi, ale wywieraniem na nią wpływu. Na przykład w ankiecie push można by zapytać „Czy zagłosowałbyś na [kandydata A], nawet gdyby zgłoszono, że był on molestującym dzieckiem?”.


* Możesz również ustalić wyraźne cele dla swojej próby, na przykład obejmujące 500 mężczyzn i 500 kobiet. Nazywa się to próbkowaniem warstwowym - populacja jest podzielona na różne grupy, a następnie z każdej grupy pobiera się próbki losowo. W praktyce nie zdarza się to zbyt często w przypadku sondaży, ponieważ należałoby rozdzielić się na wiele wyczerpujących grup (np. Mężczyzn z wykształceniem wyższym w wieku 18–24 lat w Urban Texas).

Matt Krause
źródło
2
I na pewno rozumieją, że nie robisz prosty losowy dobór próby, ale moje pytanie brzmi, czy to, co się robi jest po prostu dobre tylko dlatego, że zdarza się , że ich założenia są prawidłowe (czyli rozsądne, ale prywatną przeczucie), czy założenia są również statystycznie uzasadniony. Zobacz mój komentarz do drugiej odpowiedzi tutaj .
user541686,
3
Myślę, że oba. Ważenie próbki jest statystycznie poprawną rzeczą do zrobienia, ale istnieje ... elastyczność w podejmowaniu decyzji, w jaki sposób wybrać czynniki wpływające na wagi. Na przykład rasa, płeć i wykształcenie są przydatne, ale okazuje się, że identyfikacja partii często nie jest (np. Theguardian.com/commentisfree/2012/sep/27/... ), prawdopodobnie dlatego, że jest związana z kandydatem wyborcy wybór.
Matt Krause,
1
Podobnie wagi czasami zawierają oszacowanie prawdopodobieństwa głosowania przez respondenta: młodzi ludzie hałasują, ale nie zawsze się pojawiają; osoby starsze rzadko uczestniczą w wiecach, ale niezawodnie pojawiają się w ankietach. Można to oszacować na podstawie danych historycznych (listy wyborców są czasem publiczne), ale wyobrażam sobie, że niektóre miejsca dostosowały ją dla Afroamerykanów w 2008 r. I kobiet w 2016 r.
Matt Krause,
Dzięki!
Warto
10

Istnieje twierdzenie matematyczne zwane „prawem dużych liczb”. Wyobraź sobie, że chcesz ustalić prawdopodobieństwo pojawienia się monety. „Populacja” rzutów monetą to nieskończoność - znacznie większa niż ponad 300 000 000 osób w Stanach Zjednoczonych. Ale zgodnie z Prawem Dużych Liczb, im więcej monet wykonasz, tym dokładniejsze będzie twoje oszacowanie.

Idealna ankieta: w idealnej ankiecie ankieterzy losowo wybierają nazwiska z amerykańskiego spisu powszechnego, dowiadują się, gdzie mieszkają ci ludzie, a potem idą i pukają do drzwi. Jeśli dana osoba twierdzi, że planuje głosować, ankieter pyta, na kogo głosuje, i zapisuje swoją odpowiedź. Matematycznie zagwarantowane działanie odpytywania działa poprawnie, a wielkość błędu w pomiarze dla dowolnego poziomu ufności można łatwo obliczyć .

Oto, co oznacza błąd: Załóżmy, że w oparciu o ankietę masz 52% szans, że wygra Candidate Awesome McPerfect, z 3% błędem i 98% pewnością. Oznacza to, że możesz mieć 98% pewności, że prawdziwa część wyborców, którzy faworyzują kandydata Awesome McPerfect, wynosi od 49% do 55%.

Uwaga na temat błędu i pewności Dla danej wielkości próbki, im większa pewność siebie, tym większy będzie twój błąd. Pomyśl o tym - masz 100% pewności, że prawdziwa proporcja, która obsługuje Canditate Awesome, wynosi od 0% do 100% (możliwy największy błąd), i masz 0% pewności, że prawdziwa proporcja, która obsługuje Canditate Awesome, wynosi dokładnie 52.0932840985028390984308% (błąd zerowy). Większa pewność oznacza więcej błędów, mniejsza pewność oznacza mniej błędów. Jednak związek między pewnością a błędem NIE jest liniowy! (Zobacz: https://en.wikipedia.org/wiki/Confidence_interval )

Ankiety w prawdziwym świecie: Ponieważ drogie jest wysyłanie ankieterów helikopterem do wszystkich części kraju, aby zapukać do drzwi przypadkowych osób (chociaż chciałbym, aby tak się stało; jeśli jesteś miliarderem i widzisz to, proszę rozważ finansowanie), ankiety w prawdziwym świecie są bardziej złożone. Przyjrzyjmy się jednej z bardziej popularnych strategii - wzywaniu losowych wyborców i pytaniu ich, na kogo głosowaliby. To dobra strategia, ale ma kilka dobrze uznanych błędów:

  1. Ludzie często nie odbierają telefonu i odpowiadają ankieterom (np. Mnie)
  2. Niektóre dane demograficzne częściej mają telefon stacjonarny (np. Starsi wyborcy)
  3. Niektóre dane demograficzne częściej reagują na ankieterów (np. Starszych wyborców)

Ponieważ różne grupy demograficzne głosują na różne sposoby, ankieterzy muszą dołożyć wszelkich starań, aby kontrolować różnice w swoich surowych danych (w zależności od tego, kto zdecydował się odebrać telefon) i wyniki faktycznych wyborów. Na przykład, jeśli 10% osób, które odebrały telefon, było Hiszpanami, ale 30% głosujących w ostatnich wyborach było Hiszpanami, to w swojej ankiecie trzykrotnie przewyższą latynoskich wyborców. Jeśli 50% osób, które odebrały telefon, było w wieku powyżej 60 lat, ale tylko 30% osób, które głosowały w ostatnich wyborach, było w wieku powyżej 60 lat, przywiążą mniejszą wagę do starszych wyborców, którzy odpowiedzieli. Nie jest idealny, ale może prowadzić do imponujących wyczynów prognoz (Nate Silver poprawnie przewidział wyniki w każdym z 50 stanów w wyborach w 2012 r., Używając statystyk,

Uwaga dla mądrych: ankieterzy robią najlepsze przewidywania, jakie potrafią, na podstawie tego, jak działało się w przeszłości. Ogólnie rzecz biorąc , rzeczy działają teraz tak samo jak w przeszłości, a przynajmniej zmiana jest na tyle powolna, że ​​niedawna przeszłość (na której koncentrują się najbardziej) będzie przypominać teraźniejszość. Czasami jednak w elektoracie zachodzą szybkie zmiany i wszystko idzie nie tak. Być może wyborcy Trumpa są nieco mniej skłonni niż przeciętny głosujący do odebrania telefonu, a waga według danych demograficznych nie bierze tego pod uwagę. A może młodzi ludzie (którzy w przeważającej mierze popierają Hillary) są jeszcze bardziejraczej nie odbierają telefonu niż przewidują modele, a te, które odbierają telefon, są bardziej republikańskie. A może jest odwrotnie - nie wiemy. takie rzeczy to ukryte zmienne, które nie pojawiają się w często zbieranych danych demograficznych.

Mamy byłoby wiedzieć, czy wysłaliśmy ankieterów zapukać przypadkowych drzwi (hm, wyimaginowany billionare czytając to), ponieważ wtedy nie musiałby rzeczy wagowych w oparciu o dane demograficzne, ale dopiero wtedy, kciuki.

J. Antonio Perez
źródło
3
Doceniam odpowiedzi, ale to trochę elementarnej w stosunku do pytania starałem się zapytać a moim tle (nie wiem, czy zauważyłeś, ale jestem nie dokładnie nowy z podstawami prawdopodobieństwa / stats); Nie sądzę, aby odpowiedź na moje pytanie była tak prosta jak twoje. Na przykład: założenie klasycznego prawa wielkich liczb jest takie, że mamy zmienne losowe o identycznych rozkładach ... ale nie widzę uzasadnienia w kontekście politycznym: dlaczego rozkład, na który głosowałeś, i twój, miałby być w ogóle to samo ?
user541686,
Ponadto nie jestem nawet pewien, czy prawo wielkich liczb uzasadnia to, co próbujesz uzasadnić, nawet jeśli jego założenia są spełnione. Pytanie dotyczy rozmiarów próbek, których prawo wielkich liczb tak naprawdę nie odnosi się (przynajmniej nie w sposób, który sugerujesz); potrzebujemy tutaj pojęcia wariancji lub współczynnika zbieżności, a nie tylko zbieżności średniej w nieskończoności. Może chciałeś przywołać centralne twierdzenie graniczne zamiast prawa wielkich liczb? (Chociaż proszę zobaczyć mój poprzedni komentarz, ponieważ jest to prawdopodobnie kwestia sporna.)
user541686
2
Dystrybucje nie są stosowane do poszczególnych głosów. Poszczególne głosy nie są losowe. Są one stosowane do głosowania całej populacji. To jak rysowanie kolorowych kulek z urny - każda z nich jest z góry określona na czerwoną lub niebieską, ale możesz mieć prawdopodobieństwo narysowania każdego koloru, dzięki czemu możesz stworzyć rozkład prawdopodobieństwa narysowania określonego koloru kulki na podstawie próbki piłek w urnie
J. Antonio Perez
1
Spójrzmy z ludźmi na coś innego niż polityka. Ulubiony smak lodów zależy od tylu rzeczy, co ich poglądów politycznych. Może to zależeć od preferencji przyjaciół, miłych wspomnień z dzieciństwa, dobrych lub złych doświadczeń w lodziarni. Być może podoba im się jeden smak, ponieważ dostali go na pierwszej randce z żoną lub mężem. Być może nie lubią smaku, ponieważ przypomina im to ich byłego. Ale jeśli przeprowadziłbym losową ankietę wśród ludzi w Ameryce, czy nie zgodziłbyś się, że mógłbym ocenić najlepsze ulubione lody w Ameryce?
J. Antonio Perez,
1
„Zmienna losowa” to osoba, którą ankieter wybiera, aby zapytać o jej preferencje. Preferencje jednostki nie są przypadkowe; która osoba wybierająca ankieter jest losowa.
J. Antonio Perez,
7

Po pierwsze, jest to poza głównymi punktami, ale warto o tym wspomnieć. W badaniu medycznym możesz mieć 1000 osób testujących lek, który można podać 10000 osobom chorym rocznie. Możesz spojrzeć na to i pomyśleć „To jest testowane na 10% populacji”, w rzeczywistości populacja nie jest 10000 osób, wszyscy jej przyszli pacjenci, więc wielkość populacji jest nieskończona. 1000 osób nie jest dużych w porównaniu z nieskończonymi potencjalnymi użytkownikami narkotyków, ale tego rodzaju badania działają. Nie ma znaczenia, czy testujesz 10%, 1% czy 0,1% populacji; ważny jest bezwzględny rozmiar próbki, a nie jej wielkość w porównaniu z populacją.

Następnie Twoim głównym celem jest to, że istnieje tak wiele mylących zmiennych, które mogą wpływać na głosowanie ludzi. Traktujesz 22000 dzielnic Kalifornii jak 22000 zmiennych, ale tak naprawdę to tylko garść zmiennych (dochód i wykształcenie, jak wspomniałeś). Nie potrzebujesz reprezentatywnej próbki z każdej dzielnicy, potrzebujesz tylko wystarczającej liczby próbek, aby pokryć różnice wynikające z dochodów, wykształcenia itp.

kknnσ2nkkσ2n

kn

Edytować:

Powyższy wzór zakładał, że każda zmienna myląca jest równie ważna. Jeśli chcemy rozważyć setki rzeczy, które mogą dodać wariancję do wyników, to założenie to jest nieważne (np. Może użytkownicy Twittera wspierają jednego kandydata więcej, ale wiemy, że użycie Twittera nie jest tak ważne jak płeć).

σ20.9σ20.92σ2n=0σ20.9n=10σ2

n10σ2n0.9

Hugh
źródło
Dziękuję za odpowiedź! Jeśli chodzi o pierwszy punkt, wydaje mi się, że to prawda, ale mój punkt widzenia był taki, że nie ma nawet znaczenia, jaka jest wielkość populacji ludzkiej, ponieważ masz czynnik wymuszający (DNA itp.), Który sprawiłby, że wyniki byłyby bardzo podobne dla dowolna próbka. Jednak w odniesieniu do drugiego: mogę kupić, że może istnieć kilka zmiennych w praktyce, ale jedynym sposobem, aby uzasadnić to założenie matematycznie i użyć go później, jest próbowanie dużej liczby osób w pierwszej kolejności i wykazanie tego, prawda? Bez tego wniosek nie wydaje się statystycznie rygorystyczny ani uzasadniony.
user541686,
Ustaliliśmy na drodze eksperymentu, że wiek, płeć, dochód i kilka innych czynników są kluczowymi czynnikami w sposobie głosowania ludzi i wiemy to również z ogólnej wiedzy. Masz rację, że mogą istnieć setki innych drobnych czynników, które wpływają na głosy i teoretycznie mogą się one przyczynić do czegoś znaczącego, ale nasza ogólna wiedza mówi nam, że są one nieistotne. W tym momencie model nie jest rygorystycznie uzasadniony, ale kto zamierza przetestować drobne czynniki, takie jak: „Czy bycie blondynką sprawia, że ​​ludzie głosują na Clintona? Czy noszenie peruki sprawia, że ​​ludzie głosują na Trumpa?”.
Hugh
„ale kto przetestuje pomniejsze czynniki, takie jak [...]” - ale o to tutaj chodzi. Jeśli odpowiedź brzmi „ponieważ jest to najlepsze, co możemy praktycznie zrobić / ponieważ tak się po prostu dzieje, / ponieważ jest to kosztowne inaczej / itp.”, To jest idealnie dobra odpowiedź na pytanie „Dlaczego nie sondują 100 000 osób? ”, ale tak naprawdę nie jest to odpowiedź na pytanie„ W jaki sposób 1000 osób może być statystycznie uzasadnione? ”. Dlatego pytam o to w Stats.SE w przeciwieństwie do Politics.SE ... Nie obchodzi mnie, czy więcej próbek jest niepraktycznych; moje pytanie dotyczy tego, dlaczego ludzie uważają, że obecne metody są uzasadnione statystycznie.
user541686,
Pierwsze kilka zdań w ostatnim komentarzu wydaje się jednak rozsądną odpowiedzią, jeśli mówisz, że tego rodzaju badania przeprowadzono na dużą skalę (~ setki tysięcy, jeśli nie miliony ludzi) i że jest to podstawa naszych założeń. Jeśli tak, uważam, że należy je dodać do twojej odpowiedzi, ponieważ odnoszą się do sedna mojego pytania (najlepiej z pewnym zacytowaniem, chociaż nie mogę być zbyt wybredny, biorąc pod uwagę, że jest to trochę styczna i to nie jest polityka. ).
user541686,
Masz rację, że testowanie drobnych czynników jest niepraktyczne, ale matematyczne. Zredagowałem swoją odpowiedź, aby podać uzasadnienie, dlaczego nie przejmujemy się setkami drobnych czynników wpływających na wynik. Jestem pewien, że można znaleźć badania dotyczące wpływu głównego czynnika.
Hugh