Mam próbkę (o wielkości 250) z populacji. Nie znam rozkładu populacji.
Główne pytanie: Chcę estymację punktową o 1 st -percentile populacji, a następnie chcę 95% przedział ufności wokół mojego punktu oszacowania.
Chodzi mi o oszacowanie będzie próbka 1 st -percentile. Oznaczam to .
Następnie staram się zbudować przedział ufności wokół oszacowania punktu. Zastanawiam się, czy warto tutaj użyć bootstrap. Jestem bardzo niedoświadczony w bootstrapie, więc wybacz, jeśli nie użyję odpowiedniej terminologii itp.
Oto jak próbowałem to zrobić. Rysuję 1000 losowych próbek z zamiennikiem z mojej oryginalnej próbki. I uzyskać 1 st -percentile od każdego z nich. Tak więc mam 1000 punktów - w kategorii "1 st -percentiles". Patrzę na empiryczny rozkład tych 1000 punktów. Oznaczam jego średnią . Określam „stronniczość” w następujący sposób: . Biorę 2,5 th -percentile i 97,5 th percentyla 1000 punktów do uzyskania dolnej i górnej granicy, co nazywam 95% przedział ufności wokół 1 st -percentile oryginalnej próbki. Oznaczam te punkty i .
Ostatnim krokiem jest pozostały przystosować ten przedział ufności się wokół 1 st -percentile z populacji zamiast wokół 1 st -percentile z oryginalnej próbki . Tak więc biorę jako dolny koniec i jako górny koniec z 95% przedziałem ufności wokół szacunków punkcie ludności 1 st -percentile. Ten ostatni przedział był tym, czego szukałem.
Kluczowy punkt, moim zdaniem, jest to, czy jest sens stosowania bootstrap do 1 st -percentile który jest dość blisko ogona nieznanego bazowego rozkładu populacji. Podejrzewam, że może to być problematyczne; pomyśl o użyciu bootstrap do budowania przedziału ufności wokół minimum (lub maksimum).
Ale może to podejście jest wadliwe? Proszę daj mi znać.
EDYTOWAĆ:
Mając na myśli o problemie trochę więcej, widzę, że moje rozwiązanie wynika następujące: empiryczny 1 st percentyla oryginalnej próbki mogą być tendencyjne prognozy o 1 st percentyla populacji. A jeśli tak, to oszacowanie punktowe powinno być skorygowane o odchylenie: . W przeciwnym razie przedział ufności skorygowany o odchylenie nie byłby zgodny z oszacowanym punktem nieskorygowanym odchyleniem. Muszę dostosować zarówno oszacowanie punktowe, jak i przedział ufności, lub żaden z nich.
Z drugiej strony, jeśli nie pozwolę, aby oszacowanie było stronnicze, nie musiałbym dokonywać korekty błędu. Oznacza to, że wziąłbym jako oszacowanie punktu, a jako dolny koniec i jako górny koniec 95% przedział ufności. Nie jestem pewien, czy ten przedział ma sens ...
Więc robi to sensu zakładać, że próbka 1 st percentyla jest stronniczy oszacowanie populacji 1 st percentyla? A jeśli nie, czy moje alternatywne rozwiązanie jest prawidłowe?
źródło
Odpowiedzi:
Wnioskowanie o ładowaniu początkowym dla skrajności dystrybucji jest ogólnie wątpliwe. Podczas ładowania początkowego n-out-of-n minimum lub maksimum w próbce o rozmiarze , masz szansa, że odtworzysz przykładową ekstremalną obserwację i podobnie około szansa na odtworzenie drugiej ekstremalnej obserwacji i tak dalej. Otrzymujesz rozkład deterministyczny, który ma niewiele wspólnego z kształtem rozkładu leżącego u podstawy ogona. Co więcej, bootstrap nie może dać ci niczego poniżej minimalnej próbki, nawet jeśli dystrybucja ma wsparcie poniżej tej wartości (jak by to było w przypadku większości ciągłych dystrybucji, takich jak powiedzmy normalne).n 1 - ( 1 - 1 / n)n∼ 1 - e x p ( - 1 ) = 63,2 % e x p (-1)- e x p (-2)=23,3%
Rozwiązania są skomplikowane i opierają się na kombinacjach asymptotyków z teorii wartości ekstremalnej i podpróbkowania mniejszej niż n obserwacji (w rzeczywistości, znacznie mniej, wskaźnik powinien zbiegać się do zera jako ).n → ∞
źródło