Próbkowanie z wymianą ma dwie zalety w porównaniu z próbkowaniem bez wymiany, tak jak to widzę:
1) Nie musisz się martwić o skończoną korektę populacji.
2) Istnieje szansa, że elementy z populacji zostaną narysowane wiele razy - wtedy możesz przetworzyć pomiary i zaoszczędzić czas.
Oczywiście z akademickiego POV trzeba zbadać obie metody. Ale z praktycznego POV nie rozumiem, dlaczego warto rozważyć pobieranie próbek bez wymiany, biorąc pod uwagę zalety wymiany.
Ale jestem początkującym w statystykach, więc może istnieć wiele dobrych powodów, dla których bez wymiany może być najlepszym wyborem - przynajmniej w szczególnych przypadkach użycia. Proszę, nie rozpraszaj mnie!
sampling
finite-population
Raffael
źródło
źródło
Odpowiedzi:
Rozwijając odpowiedź @Scortchi. . .
Załóżmy, że populacja liczyła 5 członków, a masz budżet na próbkowanie 5 osób. Interesuje Cię średnia populacji zmiennej X, charakterystyczna dla osób w tej populacji. Możesz to zrobić po swojemu i losowo próbować z wymianą. Wariancja średniej próbki będzie wynosić V (X) / 5.
Z drugiej strony załóżmy, że próbkujesz pięć osobników bez zamiany. Wówczas wariancja średniej próby wynosi 0. Pobrano próbkę z całej populacji, każda osoba dokładnie raz, więc nie ma różnicy między „średnią próby” a „średnią populacji”. To są te same rzeczy.
W prawdziwym świecie powinieneś skakać z radości za każdym razem, gdy musisz wykonać skończoną korektę populacji, ponieważ (bęben ...) powoduje to obniżenie wariancji twojego estymatora bez konieczności zbierania większej ilości danych. Prawie nic tego nie robi. To jak magia: dobra magia.
Mówiąc dokładnie to samo w matematyce (zwróć uwagę na <i , że wielkość próbki jest większa niż 1):
Korekta <1 oznacza, że zastosowanie korekcji powoduje, że wariancja spada W DÓŁ, ponieważ stosuje się korektę, mnożąc ją względem wariancji. Wariancja W DÓŁ == dobra.
Idąc w przeciwnym kierunku, całkowicie z dala od matematyki, pomyśl o tym, o co pytasz. Jeśli chcesz dowiedzieć się o populacji i możesz pobrać z niej 5 osób, to wydaje się prawdopodobne, że dowiesz się więcej, próbując 5 razy pobrać próbkę z tym samym facetem, czy też wydaje się bardziej prawdopodobne, że dowiesz się więcej, zapewniając że próbujesz 5 różnych facetów?
Przypadek świata rzeczywistego jest prawie przeciwieństwem tego, co mówisz. Prawie nigdy nie próbujesz z zamianą - tylko wtedy, gdy robisz specjalne rzeczy, takie jak ładowanie. W takim przypadku próbujesz zepsuć estymator i nadać mu „zbyt dużą” wariancję.
źródło
Precyzja szacunków jest zwykle wyższa w przypadku próbkowania bez zamiany w porównaniu do próbkowania z wymianą.
Na przykład możliwe jest wybranie tylko jednego elementu razy, gdy próbkowanie odbywa się z wymianą w skrajnym przypadku. Może to prowadzić do bardzo nieprecyzyjnego oszacowania interesującego parametru populacji. Taka sytuacja nie jest możliwa w przypadku pobierania próbek bez wymiany. Zatem wariancja jest zwykle niższa w przypadku oszacowań dokonanych na podstawie próbkowania bez zamiany.n
źródło
Nie sądzę, aby odpowiedzi tutaj były całkowicie adekwatne i wydają się argumentować za ograniczającym przypadkiem, w którym ilość twoich danych jest bardzo niska.
Przy wystarczająco dużej próbce nie stanowi to żadnego zmartwienia, szczególnie w przypadku wielu próbek ładowania początkowego (~ 1000). Jeśli próbowałem z prawdziwego rozkładu zestawu danych o rozmiarze 10 000 i próbowałem ponownie z wymianą 1000 razy, wtedy wariancja, którą zyskuję (w przeciwieństwie do wariancji, którą uzyskałbym, nie zastępując) jest całkowicie nieistotna.
Powiedziałbym, że dokładniejsza odpowiedź jest następująca: ponowne próbkowanie bez zamiany jest niezbędne przy szacowaniu wiarygodności statystyki drugiego rzędu . Na przykład, jeśli używam paska startowego do oszacowania niepewności, którą mam w pomiarze dyspersji. Wyciąganie z zamiennikiem takiej ilości może sztucznie wpływać na odzyskanie niskiej dyspersji.
Konkretny przykład z prawdziwymi danymi, jeśli jesteś gotów, zobacz ten artykuł https://arxiv.org/abs/1612.02827
krótko omawia twoje pytanie na stronie 10
źródło
Mam wynik, który traktuje bez wymiany praktycznie jak z wymianą i usuwa wszystkie trudności. Należy pamiętać, że przy obliczeniach zastępczych są znacznie łatwiejsze. Tak więc, jeśli prawdopodobieństwo obejmuje p i q, prawdopodobieństwo powodzenia i niepowodzenia, w przypadku zamiany, odpowiednie prawdopodobieństwo w przypadku braku zamiany uzyskuje się po prostu przez zastąpienie p ^ aq ^ b przez (Nab) C (Ra) dla dowolne aib, gdzie N, R oznaczają całkowitą liczbę kulek i liczbę białych kulek. Pamiętaj, że p jest traktowane jako R / N.
K.Basasubramanian
źródło