Korzystanie z bootstrap w celu uzyskania rozkładu próbkowania 1. percentyla

9

Mam próbkę (o wielkości 250) z populacji. Nie znam rozkładu populacji.

Główne pytanie: Chcę estymację punktową o 1 st -percentile populacji, a następnie chcę 95% przedział ufności wokół mojego punktu oszacowania.

Chodzi mi o oszacowanie będzie próbka 1 st -percentile. Oznaczam to .x

Następnie staram się zbudować przedział ufności wokół oszacowania punktu. Zastanawiam się, czy warto tutaj użyć bootstrap. Jestem bardzo niedoświadczony w bootstrapie, więc wybacz, jeśli nie użyję odpowiedniej terminologii itp.

Oto jak próbowałem to zrobić. Rysuję 1000 losowych próbek z zamiennikiem z mojej oryginalnej próbki. I uzyskać 1 st -percentile od każdego z nich. Tak więc mam 1000 punktów - w kategorii "1 st -percentiles". Patrzę na empiryczny rozkład tych 1000 punktów. Oznaczam jego średnią . Określam „stronniczość” w następujący sposób: . Biorę 2,5 th -percentile i 97,5 th percentyla 1000 punktów do uzyskania dolnej i górnej granicy, co nazywam 95% przedział ufności wokół 1 st -percentile oryginalnej próbki. Oznaczam te punkty i .xmmizanstronniczość=xmmizan-xx0,025x0,975

Ostatnim krokiem jest pozostały przystosować ten przedział ufności się wokół 1 st -percentile z populacji zamiast wokół 1 st -percentile z oryginalnej próbki . Tak więc biorę jako dolny koniec i jako górny koniec z 95% przedziałem ufności wokół szacunków punkcie ludności 1 st -percentile. Ten ostatni przedział był tym, czego szukałem.x-stronniczość-(xmmizan-x0,025)x-stronniczość+(x0,975-xmmizan)

Kluczowy punkt, moim zdaniem, jest to, czy jest sens stosowania bootstrap do 1 st -percentile który jest dość blisko ogona nieznanego bazowego rozkładu populacji. Podejrzewam, że może to być problematyczne; pomyśl o użyciu bootstrap do budowania przedziału ufności wokół minimum (lub maksimum).

Ale może to podejście jest wadliwe? Proszę daj mi znać.

EDYTOWAĆ:

Mając na myśli o problemie trochę więcej, widzę, że moje rozwiązanie wynika następujące: empiryczny 1 st percentyla oryginalnej próbki mogą być tendencyjne prognozy o 1 st percentyla populacji. A jeśli tak, to oszacowanie punktowe powinno być skorygowane o odchylenie: . W przeciwnym razie przedział ufności skorygowany o odchylenie nie byłby zgodny z oszacowanym punktem nieskorygowanym odchyleniem. Muszę dostosować zarówno oszacowanie punktowe, jak i przedział ufności, lub żaden z nich.x-stronniczość

Z drugiej strony, jeśli nie pozwolę, aby oszacowanie było stronnicze, nie musiałbym dokonywać korekty błędu. Oznacza to, że wziąłbym jako oszacowanie punktu, a jako dolny koniec i jako górny koniec 95% przedział ufności. Nie jestem pewien, czy ten przedział ma sens ...xx-(xmmizan-x0,025)x+(x0,975-xmmizan)

Więc robi to sensu zakładać, że próbka 1 st percentyla jest stronniczy oszacowanie populacji 1 st percentyla? A jeśli nie, czy moje alternatywne rozwiązanie jest prawidłowe?

Richard Hardy
źródło
To nie odnosi się bezpośrednio do pytania bootstrap, ale może ci być pomocne: onlinecourses.science.psu.edu/stat414/node/231
shadowtalker

Odpowiedzi:

11

Wnioskowanie o ładowaniu początkowym dla skrajności dystrybucji jest ogólnie wątpliwe. Podczas ładowania początkowego n-out-of-n minimum lub maksimum w próbce o rozmiarze , masz szansa, że ​​odtworzysz przykładową ekstremalną obserwację i podobnie około szansa na odtworzenie drugiej ekstremalnej obserwacji i tak dalej. Otrzymujesz rozkład deterministyczny, który ma niewiele wspólnego z kształtem rozkładu leżącego u podstawy ogona. Co więcej, bootstrap nie może dać ci niczego poniżej minimalnej próbki, nawet jeśli dystrybucja ma wsparcie poniżej tej wartości (jak by to było w przypadku większości ciągłych dystrybucji, takich jak powiedzmy normalne).n1-(1-1/n)n1-mixp(-1)=63,2%mixp(-1)-mixp(-2))=23,3%

Rozwiązania są skomplikowane i opierają się na kombinacjach asymptotyków z teorii wartości ekstremalnej i podpróbkowania mniejszej niż n obserwacji (w rzeczywistości, znacznie mniej, wskaźnik powinien zbiegać się do zera jako ).n

StasK
źródło
Odpowiedź jest pomocna, ale chciałbym dowiedzieć się, jak blisko 1. percentyl jest minimalny w odniesieniu do zachowania bootstrap? Sądzę, że w bardzo dużych próbkach pierwszy percentyl można uznać za „daleki” od minimum, a powyższe problemy można zignorować, podczas gdy w małych próbkach pierwszy percentyl sam w sobie jest minimum i problemy będą miały duże znaczenie. Tak więc jesteśmy gdzieś pośrodku. Wydaje mi się, że pod tym względem moją próbkę liczącą 250 obserwacji należy uznać za dość małą.
Richard Hardy