Co jeśli twoja losowa próbka nie jest wyraźnie reprezentatywna?

28

Co się stanie, jeśli weźmiesz losową próbkę i zobaczysz, że nie jest ona reprezentatywna, jak w ostatnim pytaniu . Na przykład, co jeśli rozkład populacji ma być symetryczny wokół zera, a losowana próbka ma niezrównoważone obserwacje dodatnie i ujemne, a brak równowagi jest statystycznie znaczący, gdzie to Cię pozostawia? Jakie rozsądne stwierdzenia na temat populacji można sformułować na podstawie stronniczej próby? Jaki jest rozsądny sposób postępowania w takiej sytuacji? Czy ma to znaczenie, gdy w naszych badaniach zauważamy tę nierównowagę?

Joel W.
źródło
2
Michael, można się spodziewać, że ten problem wystąpi jeden raz na 20, jeśli wykorzystamy statystyczną istotność jako naszą miarę. Najczęściej nie wiemy, kiedy losowo wybraliśmy niereprezentatywną próbę, ponieważ nie wiemy wystarczająco dużo o populacji. Ale kiedy wiemy coś o populacji i zauważamy taką anomalię, co robimy?
Joel W.,
3
Tak, najbardziej poprawną praktyką jest uzyskanie wystarczająco dużej losowej próbki, jak napisał @MichaelChernick. Jednak jeden z moich profesorów powiedział mi, że potwierdził za pomocą symulacji Monte Carlo, że kiedy badacz musi zwiększyć wielkość próby, nie jest tak poprawne po prostu dodawanie jedności statystycznych do próbki, ale trzeba powtórzyć próbkowanie. W przeciwnym razie statystyki mogą być tendencyjne (jeszcze raz!).
this.is.not.a.nick
4
@Michael, nie rozumiem, dlaczego twoje stwierdzenie jest prawdziwe. Wartość p mniejsza niż 0,05 wystąpi pod hipotezą zerową przez 5% czasu, niezależnie od wielkości próbki. Więc jak to możliwe, że większe próbki rozwiążą ten problem? Wydaje mi się, że twoje zalecenie domyślnie zachęca czytelników do pomylenia wielkości i siły testów hipotez.
whuber
2
@Michael, co masz na myśli mówiąc, że powinniśmy zbierać więcej danych losowo? Czy mamy nadzieję, że losowo losujemy próbkę stronniczą w innym kierunku? W każdym razie, jaką liczbę dodatkowych przypadków powinniśmy narysować? Czy sugerujesz, aby ustawić numer na początku lub zastosować regułę zatrzymania? Jeśli reguła zatrzymująca, jak może ona wyglądać? Wreszcie, nawet jeśli wynikowa większa próbka nie ma statystycznie istotnego błędu, wiemy, że składa się z dwóch próbek, jednej z błędem, a drugiej bez. Jakie rozsądne stwierdzenia na temat populacji można wyciągnąć na podstawie tak złożonej próby?
Joel W.,
2
@Michael Alternatywnym wnioskiem jest to, że bardzo znacząca, mocno wypaczona próbka wskazuje na problem z procedurą pobierania próbek. Jeśli tak, brak symetrii utrzyma się w większej próbce.
whuber

Odpowiedzi:

7

Odpowiedź udzielona przez MLS (próbkowanie znaczenie stosowania) jest tylko tak dobry jak założeniach można zrobić o swoich rozkładów. Główną zaletą skończonego paradygmatu próbkowania populacji jest to, że jest nieparametryczny, ponieważ nie przyjmuje żadnych założeń dotyczących rozkładu danych w celu wnioskowania (ważnych) wniosków na temat skończonych parametrów populacji.

Nazywa się podejście do korygowania nierównowagi próbek post stratyfikacją . Musisz rozbić próbkę na niezachodzące na siebie klasy (po warstwach), a następnie ponownie zważyć te klasy zgodnie ze znanymi liczbami populacji. Jeśli wiadomo, że twoja populacja ma medianę 0, możesz ponownie zważyć pozytywne i negatywne obserwacje, aby ich ważone proporcje stały się 50-50: jeśli miałbyś pechowego SRS z 10 negatywnymi obserwacjami i 20 pozytywnymi obserwacjami, dałbyś negatywne o wadze 15/10 = 1,5 i pozytywne o 15/20 = 0,75.

Istnieją bardziej subtelne formy kalibracji próbki , w których można skalibrować próbkę w celu spełnienia bardziej ogólnych ograniczeń, takich jak średnia zmiennej ciągłej równa określonej wartości. Ograniczenie symetrii jest dość trudne w obsłudze, chociaż może być również wykonalne. Być może Jean Opsomer ma coś na ten temat: wykonuje wiele prac związanych z szacowaniem jądra dla danych ankietowych.

StasK
źródło
W jaki sposób po stratyfikacji porównuje się, logicznie lub statystycznie, z po prostu odrzuceniem niezrównoważonej próbki i pobraniem innej próbki? (Czasami pobranie próbki jest pracochłonną częścią badań, ale czasami jest to zrobione po narysowaniu próbki, która jest pracochłonna, a pobranie próbki wymaga stosunkowo niewielkiego wysiłku, jak w przypadku wielu badań eksperymentalnych.)
Joel W. ,
2
Nigdy nie byłem w sytuacji, w której odrzucenie danych jest najlepszą odpowiedzią i nigdy nie widziałem, aby zostało to omówione w żadnej ze statystyk statystycznych. W większości statystyk ankiet pozyskiwanie danych jest co najmniej pięciokrotnie droższe niż jakiekolwiek z poniższych procesów przetwarzania i analizy danych (z wyjątkiem prawdopodobnie niektórych tanich ankiet internetowych, w których gromadzenie danych jest prawie bezpłatne). Jeśli jesteś w świecie eksperymentalnym, nie powinieneś oznaczać swojego posta słowem „próbkowanie”, a zamiast tego użyć „projektu eksperymentu”.
StasK
Próbki losowe mogą być stosowane zamiast stratyfikowane, ponieważ istnieje wiele możliwych sposobów stratyfikacji w warunkach rzeczywistych. Może się zdarzyć, że po wybraniu dwóch losowych próbek do eksperymentu zauważysz rażący brak równowagi. Następnie utkniesz między kamieniem a twardym miejscem: żyj z nierównowagą (np. Wszyscy starsi ludzie w jednej grupie, wszyscy obcojęzyczni mówcy w jednej grupie, wszyscy doktoranci w jednej grupie itp.) Lub narysuj nowa próbka i osłabić związek między tym, co zrobiłeś, a założeniami wszystkich technik statystycznych. Wydaje się, że po stratyfikacji jest to drugi typ.
Joel W.,
2

Jestem Junior Member tutaj, ale powiedziałbym, że odrzucając i zaczyna od nowa zawsze jest najlepszą odpowiedzią, czy ty wiesz , że próbka jest znacznie niereprezentatywne, a jeśli masz pomysł, w jaki sposób będą reprezentatywne próbkowanie powstały w pierwszej kolejności i jak tego uniknąć, jeśli to możliwe za drugim razem.

Co dobrego zrobi próbka po raz drugi, jeśli prawdopodobnie skończysz na tej samej łodzi?

Jeśli ponowne gromadzenie danych nie ma sensu lub jest nadmiernie kosztowne, musisz pracować z tym, co masz, próbując zrekompensować niereprezentatywność poprzez stratyfikację, przypisywanie, bardziej wyszukane modelowanie lub cokolwiek innego. Musisz wyraźnie zauważyć, że zrekompensowałeś sobie w ten sposób, dlaczego uważasz, że jest to konieczne i dlaczego uważasz, że zadziałało. Następnie przeanalizuj niepewność, która pojawiła się w wyniku kompensacji. (To sprawi, że twoje wnioski będą mniej pewne, prawda?)

Jeśli nie możesz tego zrobić, musisz całkowicie upuścić projekt.

Wayne
źródło
Co zrobić, jeśli nie wiesz, dlaczego próbka jest niereprezentatywna, czy nadal masz uzasadnienie, aby ją odrzucić i pobrać nową, losową próbkę? Jeśli nie, dlaczego nie? Powiedzmy też, że odrzucasz pierwszą próbkę i rysujesz drugą. Czy statystyki wnioskowania, które można obliczyć na podstawie drugiej próbki, są w jakikolwiek sposób nieodpowiednie ze względu na odrzuconą pierwszą próbkę? Na przykład, jeśli zgadzasz się na odrzucanie niereprezentatywnych próbek, czy zmieniasz rozkład próbkowania, na którym opiera się twój test statystyczny? Jeśli tak, czy ułatwiasz lub utrudniasz znalezienie znaczenia statystycznego?
Joel W.,
@Wayne Dobry pomysł.
Subhash C. Davar
1

qpp

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,
MLS
źródło
Mówisz, że próbka nie jest stronnicza, a każda próba jej naprawy spowoduje błąd systematyczny. Sugeruję, że proces, w którym próbka została pobrana, nie jest stronniczy, ale w rzeczywistości próbka jest stronnicza, a może poważnie tendencyjna. Czy istnieją sposoby, aby spróbować naprawić znane duże odchylenie, które może powodować stosunkowo niewielkie dodatkowe odchylenie?
Joel W.,
1
Aby nieco ujednolicić terminologię: myślę o uprzedzeniu jako właściwości oczekiwania zmiennej losowej. Innymi słowy, jeśli proces, który zbiera dane, jest bezstronny, to samo dotyczy próby. Jednak próbka może nadal być nietypowa i prowadzić do niepożądanych wniosków. Jakikolwiek ogólny sposób rozwiązania tego problemu powoduje błąd systematyczny, ponieważ dostosowujesz (próbę obiektywną) procedurę próbkowania. Prawdopodobnie mniej tendencyjnym podejściem jest zbieranie i wykorzystywanie nowych próbek. Nieco bardziej tendencyjne podejście dodałoby te nowe próbki do starych, ale wynik może być mniej zmienny, ponieważ w sumie jest więcej próbek.
MLS
2
@Joel W. Co masz na myśli mówiąc, że próbka jest stronnicza? Czy to oszacowanie średniej na podstawie próby jest stronnicze? Każde oszacowanie próbki będzie różnić się od prawdziwej średniej, a niektóre mogą być bardzo odległe. Podczas losowego próbkowania wynika to z wariancji, a nie z błędu. Nie jest słuszne twierdzenie, że próbka jest stronnicza, ponieważ wiadomo, że rozkład próbki bardzo różni się od rozkładu populacji. W małych próbkach wiele osób może wyglądać niereprezentatywnie z tego czy innego powodu, ale losowe próbkowanie nie jest stronnicze.
Michael R. Chernick
1
@Michael, zgadzam się, że musimy rozpoznać przypadkową wariancję i żyć z nią, kiedy musimy. Pytam, co moglibyśmy zrobić, gdy wykryjemy niezamierzoną wariancję. Co się stanie, jeśli nasza losowa próba okaże się obejmować stosunkowo zbyt wielu młodych ludzi lub zbyt wielu pracowników fizycznych, itp., Gdy kategorie te są istotne dla naszych badań? Idąc jeszcze dalej, czy powinniśmy sprawdzić nasze próbki, aby sprawdzić, czy nie są w ten sposób niezrównoważone? I czy ma to znaczenie, jeśli zauważymy to przed przeprowadzeniem dalszych badań z próbką lub po zainwestowaniu środków w przeprowadzenie badań z próbką?
Joel W.,
1
Niezrównoważenie współzmiennej jest bardzo ważne. Jeśli istnieje w próbce, można do niej zastosować model regresji. Vance Berger napisał książkę na ten temat, którą prawdopodobnie zacytowałem wcześniej na tej stronie. Oto link Amazon do opisu książki. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick