Jak dobrze ładowanie początkowe przybliża rozkład próbkowania estymatora?

29

Studiując ostatnio bootstrap, wpadłem na pytanie koncepcyjne, które wciąż mnie zastanawia:

Masz populację i chcesz poznać atrybut populacji, tj. , gdzie używam do reprezentowania populacji. Ta może być średnia populacja np. Zwykle nie można uzyskać wszystkich danych z populacji. Narysuj więc próbkę o rozmiarze z populacji. Załóżmy, że masz próbkę idącą dla uproszczenia. Następnie otrzymujesz swój estymator . Chcesz użyć do wyciągania wniosków na temat , więc chciałbyś poznać zmienność .θ=g(P)PθXNθ^=g(X)θ^θθ^

Po pierwsze, istnieje prawdziwa dystrybucja próbkowania . Koncepcyjnie można pobrać wiele próbek (każda z nich ma rozmiar ) z populacji. Za każdym razem będziesz rozumieć ponieważ za każdym razem będziesz mieć inną próbkę. W końcu będziesz w stanie odzyskać prawdziwą dystrybucję . Ok, to przynajmniej koncepcyjny punkt odniesienia dla oszacowania rozkładu . Pozwól mi to powtórzyć: ostatecznym celem jest użycie różnych metod do oszacowania lub przybliżenia prawdziwego rozkładu .θ^Nθ^=g(X)θ^θ^θ^

Teraz pojawia się pytanie. Zwykle masz tylko jedną próbkę która zawiera punktów danych. Następnie próbujesz wiele razy z tej próbki i pojawi się dystrybucja bootstrap . Moje pytanie brzmi: jak blisko jest ta dystrybucja ładowania początkowego do prawdziwej dystrybucji próbkowania ? Czy istnieje sposób, aby to skwantyfikować?XNθ^θ^

KevinKim
źródło
1
To ściśle powiązane pytanie zawiera wiele dodatkowych informacji, do tego stopnia, że ​​pytanie to może być duplikatem.
Xi'an,
Po pierwsze, dziękuję wszystkim za szybką odpowiedź na moje pytania. Po raz pierwszy korzystam z tej strony. Nigdy nie spodziewałem się, że moje pytanie szczerze zwróci na siebie uwagę. Mam tutaj małe pytanie, co to jest „OP”? @ Silverfish
KevinKim
@Chen Jin: „OP” = oryginalny plakat (tj. Ty!). Przepraszamy za użycie skrótu, który akceptuję, może być mylący.
Silverfish,
1
Mam edytowany tytuł, tak aby w większym stopniu pasuje do oświadczenia, że „moje pytanie brzmi: jak blisko jest to do prawdziwego podziału θ ? Czy jest jakiś sposób, żeby to obliczyć?” Możesz przywrócić go, jeśli uważasz, że moja edycja nie odzwierciedla Twojego zamiaru. θ^
Silverfish,
@Silverfish Dziękuję bardzo. Kiedy zaczynam ten plakat, nie jestem do końca pewny co do mojego pytania. Ten nowy tytuł jest dobry.
KevinKim

Odpowiedzi:

20

W teorii informacji typowym sposobem kwantyfikacji tego, jak „zamknąć” jeden rozkład względem drugiego, jest użycie rozbieżności KL

Spróbujmy to zilustrować za pomocą mocno wypaczonego zestawu danych z długim ogonem - opóźnień przylotów samolotów na lotnisko w Houston (z pakietu lotów ). Niech θ być średni Estymator. Po pierwsze, możemy znaleźć rozkład pobierania próbek z θ , a następnie rozkład bootstrap z θθ^θ^θ^

Oto zestaw danych:

wprowadź opis zdjęcia tutaj

Prawdziwa średnia to 7,09 min.

Po pierwsze, mamy pewną liczbę próbek, aby uzyskać rozkład próbkowania θ , wtedy bierzemy jedną próbkę i podejmuje wiele prób bootstrap od niego.θ^

Na przykład przyjrzyjmy się dwóm rozkładom o wielkości próby 100 i 5000 powtórzeń. Widzimy wizualnie, że te rozkłady są dość osobne, a rozbieżność KL wynosi 0,48.

wprowadź opis zdjęcia tutaj

Ale gdy zwiększymy wielkość próbki do 1000, zaczynają się one zbieżne (rozbieżność KL wynosi 0,11)

wprowadź opis zdjęcia tutaj

A gdy wielkość próby wynosi 5000, są one bardzo bliskie (rozbieżność KL wynosi 0,01)

wprowadź opis zdjęcia tutaj

To, oczywiście, zależy od bootstrap próbkę można dostać, ale wierzę, że można zobaczyć, że rozbieżność KL idzie w dół jak zwiększyć wielkość próbki, a zatem bootstrap dystrybucja θ metod próbkowania dystrybucji θ w zakresie KL rozbieżności. Dla pewności możesz spróbować wykonać kilka bootstrapów i wziąć średnią dywergencję KL.θ^θ^

Oto kod R tego eksperymentu: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794

Aleksiej Grigoriew
źródło
5
+1, co pokazuje również, że dla dowolnej wielkości próbki (np. 100) odchylenie początkowe może być duże i nieuniknione.
ameba mówi Przywróć Monikę
Ten jest niesamowity! Tak aby pozwolić dystrybucję θ z bootstrap być zbliżony do rzeczywistego rozkładu θ , musimy duża wielkość próby N prawo? Dla każdej ustalonej wielkości próbki rozkład generowany z paska startowego może bardzo różnić się od rozkładu PRAWDA, jak wspomniano w @amoeba. θ^θ^N
KevinKim
Moje następne pytanie brzmi: jeśli naprawiłem wystarczająco duży, to zrobiłem 2 bootstrapy, jeden po prostu próbowałem B = 10 razy, a drugi próbowałem B = 10000 . Jaka jest różnica między dystrybucją θ wychodzi z tych 2 siłach? To pytanie zmierza zasadniczo do ustalenia, kiedy naprawimy N , jaka jest rola odgrywana przez B w tworzeniu dystrybucji θ . @GrigorevNB=10B=10000θ^NBθ^
KevinKim
1
@Chen, ale dystrybucja od θ jest coś, co można uzyskać, wykonując resamples, prawda? Różnica między B = 10 a B = 10000 polega na tym, że w jednym przypadku otrzymujesz 10 liczb, aby zbudować rozkład (niewiele informacji niezbyt wiarygodne oszacowanie jego odchylenia standardowego), aw innym przypadku otrzymujesz 10000 liczb (znacznie więcej niezawodny). θ^b=10b=100001010000
ameba mówi Przywróć Monikę
1
@Chen, myślę, że jesteś trochę zdezorientowany lub nie masz jasności co do tego, jaki powinien być w twoim komentarzu. Jeśli ponownie spróbujesz 5 razy, otrzymasz zestaw 5 liczb. Jak to jest dystrybucja? To jest zestaw liczb! Liczby te pochodzą z tego, co nazywa się F B dystrybucji. Im więcej numerów masz, tym lepiej można oszacować F B . fa555fabfab
ameba mówi Przywróć Monikę
23

Bootstrap oparty jest na zbieżność empirycznym CDF prawdziwego CDF, to znaczy M n ( x ) = 1 jest zbieżna(jak n dąży do nieskończoności),do F ( x ) dla każdego x . Stąd zbieżności rozkładu ładowanie początkowe θ ( X 1 , ... , x n ) = g ( M n ) jest napędzany za pomocą tej zbieżności, który występuje w ilości

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n) dlakażdegox, ponieważn x, mimo tej szybkości i ograniczenie dystrybucji nie automatycznie przekazaćg( F N). W praktyce, w celu oceny zmienności przybliżeniu, można wytwarzać oceny startowej rozkładug( F N
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n) przez podwójne ładowanie, tj. przez oceny ładowania początkowego.g(F^n)

Jako aktualizacji tutaj stanowi ilustrację używać w klasie: wprowadź opis zdjęcia tutaj gdzie lewa porównuje rzeczywistą cdf z empiryczną CDF F n o N = 100 obserwacje i wykresy prawa oś 250 repliki LHS, do 250 różnych próbek, w celu do pomiaru zmienności aproksymacji cdf. W tym przykładzie znam prawdę i dlatego mogę symulować z prawdy, aby ocenić zmienność. W realistycznej sytuacji, nie wiem, F , a więc muszę zacząć od F n zamiast produkować podobny wykres.FF^nn=100250FF^n

Dalsza aktualizacja: Oto jak wygląda obraz z rurki, zaczynając od empirycznego cdf: enter image description here

Xi'an
źródło
5
Sedno tej odpowiedzi polega na tym, że bootstrap działa, ponieważ jest przybliżeniem dużej próbki . Nie sądzę, aby ten punkt został wystarczająco podkreślony
Shadowtalker
2
Mam na myśli „ogólnie dość często podkreślane”
Shadowtalker 13.01.15
fa^n=100
3
fanfa
@ Xi'an Very nice! byłoby jeszcze ładniej, gdyby 2. i 3. postać można było połączyć razem w jedną postać
KevinKim