Czy „każda niebieska osoba w koszulce” jest systematyczną próbą?

17

Uczę klasę statystyk wprowadzających i przeglądałem rodzaje próbkowania, w tym próbkowanie systematyczne, w którym próbkuje się każdą k-tą osobę lub obiekt.

Student zapytał, czy pobieranie próbek od każdej osoby o określonej charakterystyce osiągnęłoby to samo.

Na przykład, czy pobieranie próbek od każdej osoby w niebieskiej koszulce byłoby wystarczająco losowe i zapewniało wystarczającą reprezentację całej populacji? Przynajmniej jeśli zadajesz pytanie inne niż „Jaki kolor koszulki wolisz nosić?” Moje rozumowanie jest przeczące, ale zastanawiałem się, czy ktoś tutaj nie miał o tym żadnych przemyśleń.

drury
źródło
12
Nie. Jeśli mieszkałeś w Glasgow w Szkocji, większość ludzi, którzy noszą „niebieską koszulkę”, prawdopodobnie byłaby zwolennikiem Rangersów . Tęsknisz za celtyckimi zwolennikami. W Glasgow drużyna piłkarska byłaby pełnomocnikiem religii.
csgillespie
1
@csgillespie wspaniałym przykładem!
whuber
Ponadto, możesz dostać więcej chłopców niż dziewcząt, ponieważ w zachodniej kulturze niebieski jest kojarzony z mężczyzną
Roland Kofler
Kolorowe koszulki są droższe niż białe koszulki i nie wszystkie wzory pasują do wszystkich kolorów. Tak więc, choć może się to wydawać niewinne, nawet wśród Koszulka noszących może być wybranie bogatszych ludzi lub bardziej impulsywne konsumentów, lub ludzi, którzy wolą szczególną partię polityczną.
Douglas Zare
Istnieje również związek między wiekiem a noszeniem koszulek, między pochodzeniem kulturowym a noszeniem koszulek i tak dalej.
Glen_b

Odpowiedzi:

22

Odpowiedź na twoje pytanie brzmi „nie”. Uzyskanie losowej próbki z populacji (szczególnie ludzi) jest niezwykle trudne. Uwzględniając określoną cechę, jesteś z definicji nie otrzymujesz losowej próbki. To, ile stronniczości to wprowadza, to zupełnie inna sprawa.

Jako nieco absurdalny przykład, nie chcesz próbować w ten sposób, powiedzmy, meczu piłki nożnej między Niedźwiedziami a Packersami, nawet jeśli twoja populacja to „fani piłki nożnej”. (Fani Bears mogą mieć inne cechy niż inni fani piłki nożnej, nawet jeśli ilość, którą jesteś zainteresowany, może nie wydawać się bezpośrednio związana z piłką nożną.)

Istnieje wiele znanych przykładów ukrytego błędu wynikającego z uzyskania próbek w ten sposób. Na przykład, w ostatnich wyborach w USA, w której sondaże telefoniczne zostały przeprowadzone, uważa się, że ludzie posiadający tylko telefon komórkowy i nie ma stacjonarnego są (być może dramatycznie) reprezentowane w próbce. Ponieważ ci ludzie również wydają się być, ogólnie rzecz biorąc, młodsze niż te z telefonów stacjonarnych, stronniczy próbki uzyskane. Ponadto młodzi ludzie mają bardzo różne poglądy polityczne niż starsze populacji. Tak, jest to prosty przykład przypadku, nawet gdy próbka nie została celowo uzależnione od konkretnej charakterystyki, to nadal zdarzało się, że sposób. I, mimo że sondaż miał nic do zrobienia z cechą warunkowania albo (tj. czy ktoś używa telefonu stacjonarnego), wpływ cechy warunkowania na wnioski ankiety był znaczący, zarówno statystycznie, jak i praktycznie.

kardynał
źródło
6

Dopóki podział charakterystyki używanego do wyboru jednostek do próbki jest prostopadły do dystrybucji charakterystyki populacji chcesz oszacować można uzyskać bezstronnej szacunkową ilość ludności według doboru klimatyzacji na nim. Próbka nie jest ściśle losowa próbka. Ale ludzie mają tendencję do przeoczyć, że losowe próbki są dobre, ponieważ zmienna losowa służy do wyboru jednostek do próby jest prostopadła do dystrybucji charakterystyki populacji, nie dlatego, że jest przypadkowa.

Wystarczy, że o rysunek losowo z Bernoulliego z P (invlogit (X_i)) gdzie X_i w [inf, inf] Cechą urządzenia i tak, że Cov (x, y)! = 0, Y oznacza którego charakterystyka populacji oznacza, że ​​chcesz oszacować. Próbka jest „losowy” w tym sensie, że są bezładność przed wybraniem do próbki. Ale próba nie daje obiektywnego oszacowania średniej populacji y.

Co trzeba to wybór klimatyzacji w próbce na zmiennej, która jest tak dobra, jak losowo przydzieleni . To znaczy, że jest prostopadła do zmiennej, w której ilość zależy od zainteresowania. Randomizacja jest dobra, ponieważ zapewnia ortogonalność, a nie z powodu samej randomizacji.

PIERWSZEŃSTWO
źródło
4
To prawda, ale skąd miałbyś wiedzieć, że byłby ortogonalny, gdybyś nie miał naprawdę przypadkowej próbki?
Peter Flom - Przywróć Monikę