Uczę klasę statystyk wprowadzających i przeglądałem rodzaje próbkowania, w tym próbkowanie systematyczne, w którym próbkuje się każdą k-tą osobę lub obiekt.
Student zapytał, czy pobieranie próbek od każdej osoby o określonej charakterystyce osiągnęłoby to samo.
Na przykład, czy pobieranie próbek od każdej osoby w niebieskiej koszulce byłoby wystarczająco losowe i zapewniało wystarczającą reprezentację całej populacji? Przynajmniej jeśli zadajesz pytanie inne niż „Jaki kolor koszulki wolisz nosić?” Moje rozumowanie jest przeczące, ale zastanawiałem się, czy ktoś tutaj nie miał o tym żadnych przemyśleń.
Odpowiedzi:
Odpowiedź na twoje pytanie brzmi „nie”. Uzyskanie losowej próbki z populacji (szczególnie ludzi) jest niezwykle trudne. Uwzględniając określoną cechę, jesteś z definicji nie otrzymujesz losowej próbki. To, ile stronniczości to wprowadza, to zupełnie inna sprawa.
Jako nieco absurdalny przykład, nie chcesz próbować w ten sposób, powiedzmy, meczu piłki nożnej między Niedźwiedziami a Packersami, nawet jeśli twoja populacja to „fani piłki nożnej”. (Fani Bears mogą mieć inne cechy niż inni fani piłki nożnej, nawet jeśli ilość, którą jesteś zainteresowany, może nie wydawać się bezpośrednio związana z piłką nożną.)
Istnieje wiele znanych przykładów ukrytego błędu wynikającego z uzyskania próbek w ten sposób. Na przykład, w ostatnich wyborach w USA, w której sondaże telefoniczne zostały przeprowadzone, uważa się, że ludzie posiadający tylko telefon komórkowy i nie ma stacjonarnego są (być może dramatycznie) reprezentowane w próbce. Ponieważ ci ludzie również wydają się być, ogólnie rzecz biorąc, młodsze niż te z telefonów stacjonarnych, stronniczy próbki uzyskane. Ponadto młodzi ludzie mają bardzo różne poglądy polityczne niż starsze populacji. Tak, jest to prosty przykład przypadku, nawet gdy próbka nie została celowo uzależnione od konkretnej charakterystyki, to nadal zdarzało się, że sposób. I, mimo że sondaż miał nic do zrobienia z cechą warunkowania albo (tj. czy ktoś używa telefonu stacjonarnego), wpływ cechy warunkowania na wnioski ankiety był znaczący, zarówno statystycznie, jak i praktycznie.
źródło
Dopóki podział charakterystyki używanego do wyboru jednostek do próbki jest prostopadły do dystrybucji charakterystyki populacji chcesz oszacować można uzyskać bezstronnej szacunkową ilość ludności według doboru klimatyzacji na nim. Próbka nie jest ściśle losowa próbka. Ale ludzie mają tendencję do przeoczyć, że losowe próbki są dobre, ponieważ zmienna losowa służy do wyboru jednostek do próby jest prostopadła do dystrybucji charakterystyki populacji, nie dlatego, że jest przypadkowa.
Wystarczy, że o rysunek losowo z Bernoulliego z P (invlogit (X_i)) gdzie X_i w [inf, inf] Cechą urządzenia i tak, że Cov (x, y)! = 0, Y oznacza którego charakterystyka populacji oznacza, że chcesz oszacować. Próbka jest „losowy” w tym sensie, że są bezładność przed wybraniem do próbki. Ale próba nie daje obiektywnego oszacowania średniej populacji y.
Co trzeba to wybór klimatyzacji w próbce na zmiennej, która jest tak dobra, jak losowo przydzieleni . To znaczy, że jest prostopadła do zmiennej, w której ilość zależy od zainteresowania. Randomizacja jest dobra, ponieważ zapewnia ortogonalność, a nie z powodu samej randomizacji.
źródło