Wnioskowanie statystyczne, gdy próbka „jest” populacją

47

Wyobraź sobie, że musisz sporządzać raporty dotyczące liczby kandydatów, którzy co roku przystępują do danego testu. Wydaje się raczej trudno wnioskować o obserwowanym% sukcesu, na przykład w odniesieniu do szerszej populacji ze względu na specyfikę populacji docelowej. Możesz więc wziąć pod uwagę, że dane te reprezentują całą populację.

Czy wyniki testów wskazują, że proporcje mężczyzn i kobiet są różne naprawdę prawdziwe? Czy test porównujący zaobserwowane i teoretyczne proporcje wydaje się poprawny, skoro bierze się pod uwagę całą populację (a nie próbkę)?

pbneau
źródło

Odpowiedzi:

31

Mogą być różne opinie na ten temat, ale dane dotyczące populacji traktowałbym jako próbkę i zakładałem hipotetyczną populację, a następnie wyciągałem wnioski w zwykły sposób. Jednym ze sposobów myślenia o tym jest fakt, że istnieje proces generowania danych, odpowiedzialny za zebrane dane, rozkład „populacji”.

W twoim szczególnym przypadku może to mieć jeszcze większy sens, ponieważ będziesz mieć kohorty w przyszłości. Zatem twoja populacja to naprawdę kohorty, które podchodzą do testu nawet w przyszłości. W ten sposób możesz uwzględnić różnice czasowe, jeśli masz dane przez ponad rok, lub spróbuj uwzględnić czynniki ukryte za pomocą modelu błędu. Krótko mówiąc, możesz opracować bogatsze modele o większej sile wyjaśniania.

ars
źródło
4
Właśnie natknąłem się na ten post od A Gelmana. Czym różni się analiza statystyczna podczas analizy całej populacji, a nie próby? , j.mp/cZ1WSI . Dobry punkt wyjścia do rozbieżnych opinii na temat koncepcji „super-populacji”.
chl
2
@chl: ciekawe - przypomina mi, że Gelman miał dyskusję na temat wnioskowania o skończonej / superpopulacji porównywalnej do efektów ustalonych / losowych w swojej pracy na temat ANOVA [ stat.columbia.edu/~gelman/research/published/econanova3.pdf ].
ars
+1 Właśnie wróciłem do tego ponownie (przez Google). Myślę, że twoja odpowiedź jest natychmiastowa.
Shane
25

W rzeczywistości, jeśli naprawdę masz pewność, że masz całą populację, nawet nie ma potrzeby wchodzenia w statystyki. Wiesz dokładnie, jak duża jest różnica, i nie ma już powodu, aby ją testować. Klasycznym błędem jest wykorzystanie istotności statystycznej jako istotności „istotnej”. Jeśli próbka populacji, różnica jest taka, jaka jest.

Z drugiej strony, jeśli przeformułujesz swoją hipotezę, kandydaci mogą być postrzegani jako próbka możliwych kandydatów, co pozwoliłoby na testowanie statystyczne. W takim przypadku sprawdziłbyś ogólnie, czy mężczyzna i kobieta różnią się w danym teście.

Jak powiedział ars, możesz użyć testów z wielu lat i dodać czas jako czynnik losowy. Ale jeśli naprawdę interesują Cię różnice między tymi kandydatami w tym konkretnym teście, nie możesz użyć uogólnienia, a testowanie jest bezsensowne.

Joris Meys
źródło
15

Tradycyjnie wnioskowanie statystyczne jest nauczane w kontekście próbek prawdopodobieństwa i charakteru błędu próbkowania. Ten model jest podstawą testu istotności. Istnieją jednak inne sposoby modelowania systematycznych odstępstw od przypadku i okazuje się, że nasze testy parametryczne (oparte na próbkowaniu) są zwykle dobrym przybliżeniem tych alternatyw.

Testy parametryczne hipotez opierają się na teorii próbkowania w celu oszacowania prawdopodobnego błędu. Jeśli próbka o danym rozmiarze zostanie pobrana z populacji, znajomość systematycznego charakteru próbkowania sprawia, że ​​badania i przedziały ufności mają znaczenie. W przypadku populacji teoria pobierania próbek jest po prostu nieistotna, a testy nie mają znaczenia w tradycyjnym znaczeniu. Wnioskowanie jest bezużyteczne, nie ma co do tego wnioskować, jest tylko rzecz… sam parametr.

Niektórzy omijają to, odwołując się do super-populacji, które reprezentuje obecny spis. Uważam te apele za nieprzekonujące - testy parametryczne opierają się na próbkowaniu prawdopodobieństwa i jego cechach. Populacja w danym czasie może być próbką większej populacji w czasie i miejscu. Nie widzę jednak żadnego sposobu, aby można było słusznie argumentować, że jest to próbka losowa (lub bardziej ogólnie dowolna forma prawdopodobieństwa). Bez próbki prawdopodobieństwa teoria próbkowania i tradycyjna logika testowania po prostu nie mają zastosowania. Równie dobrze możesz przetestować na podstawie próbki wygody.

Oczywiście, aby zaakceptować testowanie przy użyciu populacji, musimy zrezygnować z podstawy tych testów w procedurach pobierania próbek. Jednym ze sposobów na to jest rozpoznanie ścisłego związku między naszymi testami teoretycznymi na próbce - takimi jak t, Z i F - a procedurami randomizacji. Testy randomizacyjne opierają się na dostępnej próbce. Jeśli zbieram dane o dochodach mężczyzn i kobiet, modelem prawdopodobieństwa i podstawą naszych oszacowań błędu są powtarzane losowe alokacje rzeczywistych wartości danych. Mógłbym porównać zaobserwowane różnice między grupami z rozkładem opartym na tej randomizacji. (Nawiasem mówiąc, robimy to cały czas w eksperymentach, w których losowe pobieranie próbek z modelu populacji rzadko jest odpowiednie).

Okazuje się, że testy teoretyczne są często dobrym przybliżeniem testów randomizacyjnych. Tak więc ostatecznie uważam, że testy z populacji są przydatne i znaczące w tych ramach i mogą pomóc odróżnić systematyczne od zmienności szans - tak jak w przypadku testów opartych na próbach. Logika zastosowana w tym celu jest nieco inna, ale nie ma to większego wpływu na praktyczne znaczenie i wykorzystanie testów. Oczywiście lepiej byłoby po prostu bezpośrednio zastosować testy randomizacji i permutacji, ponieważ są one łatwo dostępne przy użyciu całej naszej nowoczesnej mocy obliczeniowej.

Brett
źródło
3
+1 za rozsądną dyskusję; kilka punktów. Mechanizmy wnioskowania są niedostępne do analizy populacji, ale w wielu przypadkach modelowania pytałbym, czy ktoś ma dane na temat populacji na początku - często nie jest bardzo trudno wywiercić dziury. Dlatego nie zawsze jest to apel do super-populacji jako sposób na wdrożenie wnioskowania. Zamiast „superpopulacji” lepszym sposobem jest założenie, że proces generowania danych daje wynik, na przykład test z roku na rok uwzględniający dane kohorty. Tam właśnie powstaje składnik stochastyczny.
ars
2
Nie wydaje mi się, żeby istniała tutaj jakakolwiek niezgodność, z wyjątkiem braku mechanizmów wnioskowania do analizy populacji. Testy randomizacji mają zastosowanie do populacji i mogą w uzasadniony sposób sprawdzić, czy proces generowania danych jest prawdopodobny ze względu na proces generowania losowego czy systematyczny proces generowania. Nie zakładają losowego próbkowania i są raczej bezpośrednim testem losowym w porównaniu do zmienności systemowej. Nasze tradycyjne testy wypadają całkiem nieźle.
Brett,
To prawdziwa re: „brak wnioskowania maszynowego”. Nieostrożne sformułowanie z mojej strony, zwłaszcza, że ​​podoba mi się twój komentarz na temat testów losowych w twojej odpowiedzi.
ars
Przepraszam. Mam trudności ze zrozumieniem, jak obliczyć permutacje i jakie wnioski mogę dla nich wyciągnąć.
pbneau
Czy ładowanie początkowe nie jest prawidłową alternatywą? W jaki sposób ładowanie początkowe nie rozwiązuje potrzeby przyjęcia jednego z tych założeń?
Chernoff
3

Załóżmy, że wyniki wskazują, że kandydaci różnią się w zależności od płci. Na przykład odsetek osób, które ukończyły testy, jest następujący: 40% kobiet i 60% mężczyzn. Aby zasugerować oczywiste, 40% różni się od 60%. Teraz ważne jest, aby zdecydować: 1) interesująca cię populacja; 2) jak twoje obserwacje odnoszą się do interesującej populacji. Oto kilka szczegółów na temat tych dwóch problemów:

  1. Jeśli interesująca Cię populacja to tylko obserwowani przez ciebie kandydaci (np. 100 kandydatów, którzy złożyli podanie na uniwersytet w 2016 r.), Nie musisz zgłaszać statystycznych testów istotności. Wynika to z tego, że twoja populacja była całkowicie próbkowana ... liczy się tylko 100 kandydatów, na których masz pełne dane. Oznacza to, że 60% to kropka, inna niż 40%. Pytanie to brzmi: czy w populacji liczącej 100 osób występowały różnice między płciami, które dotyczyły programu? To pytanie opisowe, a odpowiedź brzmi „tak”.

  2. Jednak wiele ważnych pytań dotyczy tego, co stanie się w różnych ustawieniach. Oznacza to, że wielu badaczy chce wymyślić trendy dotyczące przeszłości, które pomogą nam przewidzieć (a następnie zaplanować) przyszłość. Przykładowym pytaniem w tym względzie byłoby: Jak prawdopodobne są przyszłe testy kandydatów, które będą się różnić w zależności od płci? Populacja będąca przedmiotem zainteresowania jest wówczas szersza niż w scenariuszu nr 1 powyżej. W tym momencie ważnym pytaniem jest: czy zaobserwowane dane mogą reprezentować przyszłe trendy? To pytanie wnioskowe i na podstawie informacji dostarczonych z oryginalnego plakatu odpowiedź brzmi: nie wiemy.

Podsumowując, raportowane statystyki zależą od rodzaju pytania, na które chcesz odpowiedzieć.

Najbardziej pomocne może być myślenie o podstawowych projektach badawczych (spróbuj tutaj: http://www.socialresearchmethods.net/kb/design.php ). Myślenie o superpopulacjach może być pomocne, jeśli potrzebujesz bardziej zaawansowanych informacji (tutaj jest artykuł, który może pomóc: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1 ).

dca
źródło
2

Jeśli weźmiesz pod uwagę, że wszystko, co mierzysz, jest procesem losowym, wówczas testy statystyczne są odpowiednie. Weźmy na przykład rzut monetą 10 razy, aby sprawdzić, czy jest uczciwa. Dostajesz 6 głów i 4 ogony - co wnioskujesz?

James
źródło
1
Naprawdę nie rozumiem, w jaki sposób doszedłeś do wniosku na temat rzucania monetą w związku z zadanym pytaniem. Może mógłbyś trochę rozwinąć w tym punkcie? Testy statystyczne wydają się mieć znaczenie w zakresie, w jakim pomagają wnioskować o zaobserwowanych wynikach dla większej populacji, bez względu na to, czy jest to populacja referencyjna, czy ogólna. Wydaje się, że pytanie brzmi: biorąc pod uwagę, że próba jest zbliżona do populacji osób badanych przez określony czas (tutaj, jeden rok), czy klasyczne wnioskowanie jest właściwym sposobem na podjęcie decyzji o możliwych różnicach na poziomie indywidualnym?
chl
1
@chl Tak, ale wydaje się, że OP próbuje ustalić podstawowe prawdopodobieństwo sukcesu. Testy porównują zaobserwowane proporcje z rozkładem teoretycznym, aby ustalić, czy istnieje różnica dla danego poziomu ufności. Testujesz pod kątem dowolnej formy losowości, a nie tylko losowości błędu próby.
James