Jestem całkiem nowy w statystyce (garść kursów Uni dla początkujących) i zastanawiałem się nad próbkowaniem z nieznanych dystrybucji. W szczególności, jeśli nie masz pojęcia o podstawowej dystrybucji, czy jest jakiś sposób na „zagwarantowanie” otrzymania reprezentatywnej próbki?
Przykład do zilustrowania: powiedz, że próbujesz ustalić globalny rozkład bogactwa. Dla każdej osoby możesz w jakiś sposób dowiedzieć się o jej dokładnym bogactwie; ale nie można „próbkować” każdej osoby na Ziemi. Załóżmy, że próbujesz losowo n = 1000 osób.
Jeśli twoja próbka nie obejmowała Billa Gatesa, możesz pomyśleć, że nie ma miliarderów.
Jeśli próbka zawiera Billa Gatesa, możesz pomyśleć, że miliarderzy są bardziej powszechni niż w rzeczywistości.
W obu przypadkach tak naprawdę nie można powiedzieć, jak powszechni lub rzadcy są miliarderzy; możesz nawet nie być w stanie stwierdzić, czy coś w ogóle istnieje.
Czy istnieje lepszy mechanizm próbkowania dla takich przypadków?
Jak powiedziałbyś a priori, jaką procedurę pobierania próbek należy zastosować (i ile próbek jest potrzebnych)?
Wydaje mi się, że być może będziesz musiał „przebadać” ogromną część populacji, aby wiedzieć, ze zbliżającą się rozsądną pewnością, o tym, jak powszechni lub rzadcy miliarderzy są na planecie, i że jest to spowodowane tym, że podstawowa dystrybucja jest nieco trudna pracować z.
Odpowiedzi:
Nie zgadzam się z twoim twierdzeniem, że „w obu przypadkach tak naprawdę nie można powiedzieć, jak powszechni lub rzadcy są miliarderzy”. Niech będzie nieznaną częścią miliarderów w populacji. Z jednolitym poprzedzeniem na , rozkład tylny po losowań, które okazały się mieć 0 miliarderów, jest rozkładem Beta (11001), który wygląda następująco:fa fa fa 1000
Podczas gdy rozkład tylny po losowań, który okazał się mieć 1 miliarder, jest rozkładem Beta (21000), który wygląda następująco:fa 1000
W obu przypadkach możesz być całkiem pewien, że . Możesz pomyśleć, że to nie jest wystarczająco precyzyjne. Ale tak naprawdę 0,01 jest dość dokładny dla próbki o wielkości 1000. Większość innych wielkości, które można oszacować, byłoby mniej dokładne. Na przykład odsetek mężczyzn można oszacować jedynie w zakresie wielkości 0,1.fa< 0,01
źródło
Możesz zrobić dwie rzeczy (osobno lub łącznie)
Modeluj ogon
Jednym z nich jest modelowanie ogona rozkładu za pomocą rozkładu parametrycznego. Wiadomo, że prawa władzy dobrze pasują do podziału bogactwa, więc wypróbuj rozkład Pareto. Pasowałbyś do tego rozkładu według maksymalnego prawdopodobieństwa, to znaczy poprzez znalezienie parametrów, które najlepiej reprezentują twoją próbkę. Lub lepiej, możesz postawić priory bayesowskie na parametrach i obliczyć pełny a posterior.
Niestety prawa mocy są bardzo wrażliwe na parametry i bez wielu dużych punktów danych w twojej próbce będzie dużo niepewności co do wykładnika. Szacowana liczba miliarderów będzie wrażliwa na ten parametr, ale znacznie mniej niż średnie bogactwo miliarderów, więc sytuacja nie jest taka zła.
Pobieranie próbek według ważności
Drugim jest zmiana sposobu pobierania próbki. Załóżmy, że podejrzewasz (tak jak powinieneś), że w Monako lub Zurychu jest więcej miliarderów na mieszkańca niż w Mogadisziu. Jeśli znasz populację każdego z tych miast, możesz zebrać większą próbkę w miastach, w których spodziewasz się zobaczyć więcej miliarderów, a mniejszą w innych.
Powiedzmy, że Zurych ma 400 000 osób, a Mogadiszu 1 400 000, a my chcemy sondować 9 000 osób. Interesuje nas tutaj liczba milionerów, a nie miliarderów.
Bezstronna próba wybrałaby 2000 osób w Zurychu i 7 000 w Mogadiszu. Będziemy jednak obciążać próbkę, pobierając próbki siedmiokrotnie częściej z Zurychu. Więc „udamy”, że Zurych ma 2 800 000 ludzi, i dostosujemy się później. Oznacza to, że sondujemy 6000 osób w Zurychu zamiast 2000 i 4000 w Mogadiszu.
Załóżmy, że liczymy 21 milionerów w naszej próbie w Zurychu i tylko 1 w naszej próbie Mogadiszu. Ponieważ próbowaliśmy 7 razy w Zurychu, policzymy to tylko jako 3 milionerów.
Ta procedura zmniejszy wariancję estymatora. Może być również używany w połączeniu z pierwszą metodą, w którym to przypadku dostosowujesz próbkowanie według ważności przy dopasowywaniu rozkładu parametrycznego.
źródło
Myślę, że dobra metoda próbkowania opiera się na wcześniejszej znajomości systemu. W swojej dziedzinie masz wiedzę na temat potencjalnych stronniczości, które mogą wpłynąć na próbkowanie. Jeśli nie masz tej wiedzy, możesz ją zdobyć z literatury.
W swoim przykładzie wiesz, że są miliarderzy i że mogą one wpływać na twoje próbkowanie. Możesz więc zdecydować się na stratyfikację próby według poziomu wykształcenia, kraju, rodzaju pracy itp. Istnieje wiele opcji.
Spróbujmy z innym przykładem. Twoim celem jest ustalenie liczebności gatunku myszy w parku. W tym parku jest las i łąki. Z literatury wiadomo, że myszy są bardziej liczne w lesie niż na łąkach. Więc stratyfikujesz próbkowanie według tej cechy. Możliwe są inne procedury pobierania próbek, ale myślę, że najlepsze informacje będą pochodzić z istniejącej literatury.
A jeśli nie ma literatury na temat Twojej dziedziny? Jest to nieprawdopodobne, ale w tym kontekście przeprowadziłbym badanie wstępne, aby sprawdzić, jakie czynniki należy wziąć pod uwagę przy pobieraniu próbek.
źródło
To, czy próbka jest reprezentatywna, czy nie, nie ma nic wspólnego z obserwowanymi pomiarami próbki. Próbka jest reprezentatywna, jeśli każdy zestaw jednostek obserwacyjnych ma takie samo prawdopodobieństwo wybrania, jak każdy inny zestaw tej samej wielkości. Oczywiście jest to trudne, chyba że można uzyskać pełne wyliczenie przestrzeni próbki. Zakładając, że możesz to uzyskać (na przykład na podstawie danych z spisu ludności), prosta losowa próbka będzie reprezentatywna.
Bez względu na to, jak uzyskasz próbkę, zawsze będą istnieć co najmniej trzy osobne źródła błędów do rozważenia:
błąd próbkowania: przez przypadek włączasz Billa Gatesa do reprezentatywnej próbki. Metody statystyczne, zwłaszcza szerokości przedziałów ufności itp., Zostały zaprojektowane, aby to załatwić, pod warunkiem, że masz pewną przybliżoną wiedzę o dostępnym rozkładzie (np. Normalność, której rozkład bogactwa zdecydowanie nie posiada).
błąd próbkowania: próbka nie była reprezentatywna. Przykład: Bill Gates ma numer niepubliczny, więc Twoja ankieta telefoniczna nigdy go nie dotrze (chyba że użyjesz czegoś takiego jak „wybieranie losowe”). Jest to skrajny przykład, ale błąd w pobieraniu próbek jest bardzo rozpowszechniony. Częstym zjawiskiem jest pobieranie próbek na miejscu lub dla wygody: w restauracji próbujesz patronów restauracji, czy podoba im się to miejsce, jak często tam byli i czy planują wrócić. Klienci powtórzeniowi są znacznie bardziej skłonni do pobierania próbek niż klienci jednorazowi, a ich próbki mogą być poważnie tendencyjne.
błąd odpowiedzi: same pomiary są niedokładne. Może się to zdarzyć z powodu jakichkolwiek wad działania miernika, świadomego kłamstwa lub efektów kwantowych (np. Zasada nieoznaczoności Heisenberga).
źródło