Studiując ostatnio bootstrap, wpadłem na pytanie koncepcyjne, które wciąż mnie zastanawia:
Masz populację i chcesz poznać atrybut populacji, tj. , gdzie używam do reprezentowania populacji. Ta może być średnia populacja np. Zwykle nie można uzyskać wszystkich danych z populacji. Narysuj więc próbkę o rozmiarze z populacji. Załóżmy, że masz próbkę idącą dla uproszczenia. Następnie otrzymujesz swój estymator . Chcesz użyć do wyciągania wniosków na temat , więc chciałbyś poznać zmienność .
Po pierwsze, istnieje prawdziwa dystrybucja próbkowania . Koncepcyjnie można pobrać wiele próbek (każda z nich ma rozmiar ) z populacji. Za każdym razem będziesz rozumieć ponieważ za każdym razem będziesz mieć inną próbkę. W końcu będziesz w stanie odzyskać prawdziwą dystrybucję . Ok, to przynajmniej koncepcyjny punkt odniesienia dla oszacowania rozkładu . Pozwól mi to powtórzyć: ostatecznym celem jest użycie różnych metod do oszacowania lub przybliżenia prawdziwego rozkładu .
Teraz pojawia się pytanie. Zwykle masz tylko jedną próbkę która zawiera punktów danych. Następnie próbujesz wiele razy z tej próbki i pojawi się dystrybucja bootstrap . Moje pytanie brzmi: jak blisko jest ta dystrybucja ładowania początkowego do prawdziwej dystrybucji próbkowania ? Czy istnieje sposób, aby to skwantyfikować?
źródło
Odpowiedzi:
W teorii informacji typowym sposobem kwantyfikacji tego, jak „zamknąć” jeden rozkład względem drugiego, jest użycie rozbieżności KL
Spróbujmy to zilustrować za pomocą mocno wypaczonego zestawu danych z długim ogonem - opóźnień przylotów samolotów na lotnisko w Houston (z pakietu lotów ). Niech θ być średni Estymator. Po pierwsze, możemy znaleźć rozkład pobierania próbek z θ , a następnie rozkład bootstrap z θθ^ θ^ θ^
Oto zestaw danych:
Prawdziwa średnia to 7,09 min.
Po pierwsze, mamy pewną liczbę próbek, aby uzyskać rozkład próbkowania θ , wtedy bierzemy jedną próbkę i podejmuje wiele prób bootstrap od niego.θ^
Na przykład przyjrzyjmy się dwóm rozkładom o wielkości próby 100 i 5000 powtórzeń. Widzimy wizualnie, że te rozkłady są dość osobne, a rozbieżność KL wynosi 0,48.
Ale gdy zwiększymy wielkość próbki do 1000, zaczynają się one zbieżne (rozbieżność KL wynosi 0,11)
A gdy wielkość próby wynosi 5000, są one bardzo bliskie (rozbieżność KL wynosi 0,01)
To, oczywiście, zależy od bootstrap próbkę można dostać, ale wierzę, że można zobaczyć, że rozbieżność KL idzie w dół jak zwiększyć wielkość próbki, a zatem bootstrap dystrybucja θ metod próbkowania dystrybucji θ w zakresie KL rozbieżności. Dla pewności możesz spróbować wykonać kilka bootstrapów i wziąć średnią dywergencję KL.θ^ θ^
Oto kod R tego eksperymentu: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794
źródło
Bootstrap oparty jest na zbieżność empirycznym CDF prawdziwego CDF, to znaczy M n ( x ) = 1 jest zbieżna(jak n dąży do nieskończoności),do F ( x ) dla każdego x . Stąd zbieżności rozkładu ładowanie początkowe θ ( X 1 , ... , x n ) = g ( M n ) jest napędzany za pomocą tej zbieżności, który występuje w ilości √
Jako aktualizacji tutaj stanowi ilustrację używać w klasie: gdzie lewa porównuje rzeczywistą cdf z empiryczną CDF F n o N = 100 obserwacje i wykresy prawa oś 250 repliki LHS, do 250 różnych próbek, w celu do pomiaru zmienności aproksymacji cdf. W tym przykładzie znam prawdę i dlatego mogę symulować z prawdy, aby ocenić zmienność. W realistycznej sytuacji, nie wiem, F , a więc muszę zacząć od F n zamiast produkować podobny wykres.F F^n n=100 250 F F^n
Dalsza aktualizacja: Oto jak wygląda obraz z rurki, zaczynając od empirycznego cdf:
źródło