Kontekst
Jest to nieco podobne do tego pytania , ale nie sądzę, że jest to dokładna kopia.
Kiedy szukasz instrukcji, jak wykonać test hipotezy ładowania początkowego, zwykle stwierdza się, że dobrze jest użyć rozkładu empirycznego dla przedziałów ufności, ale że musisz poprawnie załadować ładunek z rozkładu w ramach hipotezy zerowej, aby uzyskać p- wartość. Jako przykład zobacz zaakceptowaną odpowiedź na to pytanie . Ogólne wyszukiwanie w Internecie wydaje się przynosić podobne odpowiedzi.
Powodem nieużywania wartości p opartej na rozkładzie empirycznym jest to, że przez większość czasu nie mamy niezmienności tłumaczenia.
Przykład
Podam krótki przykład. Mamy monetę i chcemy wykonać jednostronny test, aby sprawdzić, czy częstotliwość głowic jest większa niż 0,5
Wykonujemy prób i otrzymujemy głów. Prawdziwa wartość p dla tego testu wynosiłaby .
Z drugiej strony, jeśli bootstrap nasze 14 z 20 głowy skutecznie próbki z rozkładu dwumianowego z oraz . Przesuwając ten rozkład odejmując 0,2 otrzymamy ledwie znaczący wynik podczas testowania naszej zaobserwowanej wartości 0,7 względem uzyskanego rozkładu empirycznego.
W tym przypadku rozbieżność jest bardzo mała, ale rośnie, gdy wskaźnik sukcesu, na którym testujemy, zbliża się do 1.
Pytanie
Przejdźmy teraz do sedna mojego pytania: ta sama wada dotyczy również przedziałów ufności. W rzeczywistości, jeśli przedział ufności ma określony poziom ufności wówczas przedział ufności nie zawierający parametru w ramach hipotezy zerowej jest równoważny odrzuceniu hipotezy zerowej na poziomie istotności .
Dlaczego przedziały ufności oparte na rozkładzie empirycznym są powszechnie akceptowane, a wartość p nie?
Czy istnieje głębszy powód, czy ludzie nie są tak konserwatywni, jeśli chodzi o przedziały ufności?
W tej odpowiedzi Peter Dalgaard udziela odpowiedzi, która wydaje się zgadzać z moim argumentem. On mówi:
Nie ma nic szczególnie złego w tym rozumowaniu, a przynajmniej nie (znacznie) gorszym niż obliczanie CI.
Skąd pochodzi (dużo)? Oznacza to, że generowanie w ten sposób wartości p jest nieco gorsze, ale nie rozwija się w tym punkcie.
Końcowe przemyślenia
Również we wstępie do Bootstrap autorstwa Efrona i Tibshirani poświęcają dużo miejsca przedziałom ufności, ale nie wartościom p, chyba że są generowane zgodnie z prawidłowym rozkładem hipotezy zerowej, z wyjątkiem jednej odchylonej linii o ogólnej równoważności przedziały ufności i wartości pw rozdziale o testach permutacyjnych.
Wróćmy też do pierwszego pytania, które podłączyłem. Zgadzam się z odpowiedzią Michaela Chernicka, ale ponownie argumentuje on również, że zarówno przedziały ufności, jak i wartości p oparte na empirycznym rozkładzie bootstrapu są równie niewiarygodne w niektórych scenariuszach. Nie wyjaśnia to, dlaczego wiele osób mówi ci, że przedziały są w porządku, ale wartości p nie.
Odpowiedzi:
Jak powiedział @MichaelChernick w odpowiedzi na komentarz do swojej odpowiedzi na powiązane pytanie :
Ta odpowiedź dotyczy dwóch powiązanych problemów: (1) dlaczego prezentacje wyników ładowania początkowego wydają się częściej określać przedziały ufności (CI) niż wartości p , jak sugerowano w pytaniu, oraz (2) kiedy obie wartości p i CI określone przez bootstrap można podejrzewać, że są niewiarygodne, co wymaga alternatywnego podejścia.
Nie znam danych, które konkretnie potwierdzają twierdzenie zawarte w tym pytaniu dotyczące pierwszego problemu. Być może w praktyce wiele oszacowań punktów pochodzących z bootstrap jest (lub przynajmniej wydaje się, że jest) tak dalekich od granic decyzji testowych, że zainteresowanie p wartością odpowiedniej hipotezy zerowej jest niewielkie , a głównym zainteresowaniem jest samo oszacowanie punktu i pewna rozsądna miara wielkości prawdopodobnej zmienności.
W odniesieniu do drugiego zagadnienia wiele praktycznych zastosowań obejmuje „symetryczny rozkład statystyki testowej, kluczową statystykę testową, stosowanie CLT, brak lub kilka uciążliwych parametrów itp.” (Jak w komentarzu @XavierBourretSicotte powyżej), dla których nie ma większych trudności. Powstaje zatem pytanie, jak wykryć potencjalne odchylenia od tych warunków i jak sobie z nimi poradzić, gdy się pojawią.
Te potencjalne odchylenia od idealnego zachowania są doceniane od dziesięcioleci, a kilka podejść CI bootstrap opracowano wcześnie, aby sobie z nimi poradzić. Studentizowany bootstrap pomaga zapewnić kluczową statystykę, a metoda BCa radzi sobie zarówno z odchyleniem, jak i skośnością w zakresie uzyskiwania bardziej niezawodnego CI z bootstrapów. Pomocna może być również transformacja danych stabilizująca wariancje przed określeniem CI ładowania początkowego, a następnie transformacja wsteczna do pierwotnej skali.
Przykład w tym pytaniu dotyczący pobierania próbek z 14 głów z 20 rzutów z uczciwej monety jest ładnie obsługiwany przy użyciu CI z metody BCa; w R:
Inne szacunki CI stwarzają zauważony problem bycia bardzo blisko lub na granicy wartości populacji wynoszącej 10 sztuk na 20 rzutów. Rachunek CI BCa wykazuje skośność (wprowadzoną przez próbkowanie dwumianowe z dala od parzystych szans), więc ładnie obejmują wartość populacji wynoszącą 10.
Ale zanim zaczniesz korzystać z tych rozwiązań, musisz szukać takich odstępstw od idealnego zachowania. Podobnie jak w przypadku wielu praktyk statystycznych, kluczem może być raczej przeglądanie danych niż tylko podłączanie do algorytmu. Na przykład to pytanie dotyczące CI dla stronniczego wyniku ładowania początkowego pokazuje wyniki dla pierwszych 3 CI pokazanych w powyższym kodzie, ale wykluczono CI BCa. Kiedy próbowałem odtworzyć analizę przedstawioną w tym pytaniu, aby uwzględnić BCa CI, otrzymałem wynik:
gdzie „w” bierze udział w korekcie błędu systematycznego. Badana statystyka ma ustaloną maksymalną wartość, a oszacowanie wtyczki, które zostało załadowane, było z natury stronnicze. Uzyskanie takiego wyniku powinno wskazywać, że naruszane są zwykłe założenia leżące u podstaw bootstrapowanego CI.
Analiza kluczowej ilości pozwala uniknąć takich problemów; mimo że rozkład empiryczny nie może mieć użytecznych ściśle kluczowych statystyk, ważnym celem jest zbliżenie się tak blisko, jak to rozsądne. Ostatnie kilka akapitów tej odpowiedzi zawiera łącza do dalszych pomocy, takich jak wykresy przestawne do oszacowania za pomocą bootstrap, czy statystyki (potencjalnie po pewnej transformacji danych) są bliskie kluczowej, oraz kosztownie obliczeniowe, ale potencjalnie decydujące podwójne bootstrap.
źródło