Po co w ogóle rozważać pobieranie próbek bez zamiany w praktycznym zastosowaniu?

13

Próbkowanie z wymianą ma dwie zalety w porównaniu z próbkowaniem bez wymiany, tak jak to widzę:

1) Nie musisz się martwić o skończoną korektę populacji.

2) Istnieje szansa, że ​​elementy z populacji zostaną narysowane wiele razy - wtedy możesz przetworzyć pomiary i zaoszczędzić czas.

Oczywiście z akademickiego POV trzeba zbadać obie metody. Ale z praktycznego POV nie rozumiem, dlaczego warto rozważyć pobieranie próbek bez wymiany, biorąc pod uwagę zalety wymiany.

Ale jestem początkującym w statystykach, więc może istnieć wiele dobrych powodów, dla których bez wymiany może być najlepszym wyborem - przynajmniej w szczególnych przypadkach użycia. Proszę, nie rozpraszaj mnie!

Raffael
źródło
3
Wskazówka: Zastanów się, jaki jest efekt zastosowania korekcji populacyjnej i dlaczego może to być korzystne. (Należy również pamiętać, że (1) robienie sum jest prawie zawsze mniej kłopotem i wydatkiem niż gromadzenie danych; (2) jeśli można rozróżnić osoby, nie należy „
poddawać
Szczerze mówiąc, nie rozumiem żadnego z twoich twierdzeń. FPC kompensuje numeryczne konsekwencje braku niezależności pomiarów. Ale nie wiem, dlaczego to jest korzystne. (1) Jak to się ma do mojego pytania? (2) Dlaczego „nie powinieneś” powtórzyć pomiaru? Czy to nie jest bezpośrednią logiczną konsekwencją losowego dwukrotnego narysowania tego samego przedmiotu podczas próbkowania z wymianą?
Raffael,

Odpowiedzi:

13

Rozwijając odpowiedź @Scortchi. . .

Załóżmy, że populacja liczyła 5 członków, a masz budżet na próbkowanie 5 osób. Interesuje Cię średnia populacji zmiennej X, charakterystyczna dla osób w tej populacji. Możesz to zrobić po swojemu i losowo próbować z wymianą. Wariancja średniej próbki będzie wynosić V (X) / 5.

Z drugiej strony załóżmy, że próbkujesz pięć osobników bez zamiany. Wówczas wariancja średniej próby wynosi 0. Pobrano próbkę z całej populacji, każda osoba dokładnie raz, więc nie ma różnicy między „średnią próby” a „średnią populacji”. To są te same rzeczy.

W prawdziwym świecie powinieneś skakać z radości za każdym razem, gdy musisz wykonać skończoną korektę populacji, ponieważ (bęben ...) powoduje to obniżenie wariancji twojego estymatora bez konieczności zbierania większej ilości danych. Prawie nic tego nie robi. To jak magia: dobra magia.

Mówiąc dokładnie to samo w matematyce (zwróć uwagę na <i , że wielkość próbki jest większa niż 1):

finite sample correction=NnN1<N1N1=1

Korekta <1 oznacza, że ​​zastosowanie korekcji powoduje, że wariancja spada W DÓŁ, ​​ponieważ stosuje się korektę, mnożąc ją względem wariancji. Wariancja W DÓŁ == dobra.

Idąc w przeciwnym kierunku, całkowicie z dala od matematyki, pomyśl o tym, o co pytasz. Jeśli chcesz dowiedzieć się o populacji i możesz pobrać z niej 5 osób, to wydaje się prawdopodobne, że dowiesz się więcej, próbując 5 razy pobrać próbkę z tym samym facetem, czy też wydaje się bardziej prawdopodobne, że dowiesz się więcej, zapewniając że próbujesz 5 różnych facetów?

Przypadek świata rzeczywistego jest prawie przeciwieństwem tego, co mówisz. Prawie nigdy nie próbujesz z zamianą - tylko wtedy, gdy robisz specjalne rzeczy, takie jak ładowanie. W takim przypadku próbujesz zepsuć estymator i nadać mu „zbyt dużą” wariancję.

Rachunek
źródło
Pod pojęciem „bootstrapping” rozumiem użycie parametru próbki zamiast parametru populacji (którego tak naprawdę musiałbyś użyć) do oszacowania parametru populacji. Dlaczego miałbyś być zainteresowany „zepsuć” estymator i nadać mu „zbyt dużą” wariancję?
Raffael,
1
@ Яaffael Mówię o nieparametrycznym ładowaniu. Pobierasz próbkę (powiedzmy o rozmiarze 100), ponownie próbkujesz ją z zamiennikiem (100 razy daje próbkę bootstrapu o wielkości 100), a następnie ponownie obliczasz estymator zainteresowania. Próbkę traktuje się jak populację zabawek, symulując jej pobranie, obliczenie estymatora. Jeśli pobrano próbkę z populacji zabawek bez zamiany, należy dokładnie skopiować populację zabawek do próby, uzyskując pierwotne oszacowanie jako nowe oszacowanie (tj. Wariancja = 0). Aby tego uniknąć, próbuj z wymianą.
Bill
5

Precyzja szacunków jest zwykle wyższa w przypadku próbkowania bez zamiany w porównaniu do próbkowania z wymianą.

Na przykład możliwe jest wybranie tylko jednego elementu razy, gdy próbkowanie odbywa się z wymianą w skrajnym przypadku. Może to prowadzić do bardzo nieprecyzyjnego oszacowania interesującego parametru populacji. Taka sytuacja nie jest możliwa w przypadku pobierania próbek bez wymiany. Zatem wariancja jest zwykle niższa w przypadku oszacowań dokonanych na podstawie próbkowania bez zamiany.n

djhurio
źródło
2

Nie sądzę, aby odpowiedzi tutaj były całkowicie adekwatne i wydają się argumentować za ograniczającym przypadkiem, w którym ilość twoich danych jest bardzo niska.

Przy wystarczająco dużej próbce nie stanowi to żadnego zmartwienia, szczególnie w przypadku wielu próbek ładowania początkowego (~ 1000). Jeśli próbowałem z prawdziwego rozkładu zestawu danych o rozmiarze 10 000 i próbowałem ponownie z wymianą 1000 razy, wtedy wariancja, którą zyskuję (w przeciwieństwie do wariancji, którą uzyskałbym, nie zastępując) jest całkowicie nieistotna.

Powiedziałbym, że dokładniejsza odpowiedź jest następująca: ponowne próbkowanie bez zamiany jest niezbędne przy szacowaniu wiarygodności statystyki drugiego rzędu . Na przykład, jeśli używam paska startowego do oszacowania niepewności, którą mam w pomiarze dyspersji. Wyciąganie z zamiennikiem takiej ilości może sztucznie wpływać na odzyskanie niskiej dyspersji.

Konkretny przykład z prawdziwymi danymi, jeśli jesteś gotów, zobacz ten artykuł https://arxiv.org/abs/1612.02827

krótko omawia twoje pytanie na stronie 10

Anonimowy
źródło
0

Mam wynik, który traktuje bez wymiany praktycznie jak z wymianą i usuwa wszystkie trudności. Należy pamiętać, że przy obliczeniach zastępczych są znacznie łatwiejsze. Tak więc, jeśli prawdopodobieństwo obejmuje p i q, prawdopodobieństwo powodzenia i niepowodzenia, w przypadku zamiany, odpowiednie prawdopodobieństwo w przypadku braku zamiany uzyskuje się po prostu przez zastąpienie p ^ aq ^ b przez (Nab) C (Ra) dla dowolne aib, gdzie N, R oznaczają całkowitą liczbę kulek i liczbę białych kulek. Pamiętaj, że p jest traktowane jako R / N.

K.Basasubramanian

Krish Balasubramanian
źródło
było pominięcie. (Nab) C (Ra) / (NCR) jest prawidłowym wyrażeniem. Na przykład średnia np. Staje się n (N-1-0) / (R-1) / NCR. możesz sprawdzić każdy taki wynik.
Krish Balasubramanian