Czytając o przybliżeniu rozkładu próbki, natknąłem się na nieparametryczną metodę ładowania początkowego. Najwyraźniej można zbliżyć się do rozkładu przez podział ˉ X * n - ˉ X n , gdzie ˉ X * n oznacza średnią próbkę z próbki uruchamiającego.
Moje pytanie brzmi zatem: czy potrzebuję centrowania? Po co?
Czy nie mogę po prostu aproksymować przez P ( ˉ X ∗ n ≤ x ) ?
distributions
bootstrap
resampling
centering
Christin
źródło
źródło
Odpowiedzi:
Tak, można przybliżać przez P ( ˉ X ∗ n ≤ x ), ale nie jest to optymalne. Jest to forma bootstrapu percentyla. Jednak percentylowy bootstrap nie działa dobrze, jeśli chcesz wyciągnąć wnioski na temat średniej populacji, chyba że masz dużą próbkę. (Działa dobrze z wieloma innymi problemami wnioskowania, w tym gdy wielkość próby jest niewielka.) Wyciągam ten wniosek z nowoczesnych statystyk Wilcoxa dla nauk społecznych i behawioralnych , CRC Press, 2012. Obawiam się, że teoretyczny dowód jest poza mną .P(X¯n≤x) P(X¯∗n≤x)
Kolejnym krokiem jest wariant podejścia centrującego, który skaluje wyśrodkowaną statystykę bootstrap ze standardowym odchyleniem próbki i wielkością próby, obliczając to samo, co w przypadku statystyki. Kwantyle z rozkładu tych statystyk t można wykorzystać do skonstruowania przedziału ufności lub wykonania testu hipotez. Jest to metoda bootstrap-t, która daje lepsze wyniki podczas wnioskowania na temat średniej.
Rozważ poniższe wyniki symulacji, pokazujące, że przy źle wypaczonym rozkładzie mieszanym przedziały ufności dla tej metody zawierają prawdziwą wartość częściej niż metoda percentylowego ładowania początkowego lub tradycyjna odwrotność statystyki bez ładowania początkowego.
Daje to następujące (conf.t to metoda bootstrap t; conf.p to procentowa metoda bootstrap).
Na jednym przykładzie z przekrzywionej dystrybucji:
To daje następujące. Zauważ, że „conf.t” - wersja t bootstrap - daje szerszy przedział ufności niż pozostałe dwa. Zasadniczo lepiej jest reagować na nietypowy rozkład populacji.
Wreszcie jest tysiąc symulacji, aby zobaczyć, która wersja daje przedziały ufności, które są najczęściej poprawne:
Daje to wyniki poniżej - liczby to 1000 razy, gdy przedział ufności zawiera prawdziwą wartość symulowanej populacji. Zauważ, że prawdziwy wskaźnik sukcesu każdej wersji jest znacznie mniejszy niż 95%.
źródło