Nieparametryczne wartości p ładowania początkowego a przedziały ufności

Kontekst

Jest to nieco podobne do tego pytania , ale nie sądzę, że jest to dokładna kopia.

Kiedy szukasz instrukcji, jak wykonać test hipotezy ładowania początkowego, zwykle stwierdza się, że dobrze jest użyć rozkładu empirycznego dla przedziałów ufności, ale że musisz poprawnie załadować ładunek z rozkładu w ramach hipotezy zerowej, aby uzyskać p- wartość. Jako przykład zobacz zaakceptowaną odpowiedź na to pytanie . Ogólne wyszukiwanie w Internecie wydaje się przynosić podobne odpowiedzi.

Powodem nieużywania wartości p opartej na rozkładzie empirycznym jest to, że przez większość czasu nie mamy niezmienności tłumaczenia.

Przykład

Podam krótki przykład. Mamy monetę i chcemy wykonać jednostronny test, aby sprawdzić, czy częstotliwość głowic jest większa niż 0,5

Wykonujemy prób i otrzymujemy głów. Prawdziwa wartość p dla tego testu wynosiłaby . $n = 20$ $k = 14$ $p = 0.058$

Z drugiej strony, jeśli bootstrap nasze 14 z 20 głowy skutecznie próbki z rozkładu dwumianowego z oraz . Przesuwając ten rozkład odejmując 0,2 otrzymamy ledwie znaczący wynik podczas testowania naszej zaobserwowanej wartości 0,7 względem uzyskanego rozkładu empirycznego. $n = 20$ $p = \frac{14}{20}=0.7$

W tym przypadku rozbieżność jest bardzo mała, ale rośnie, gdy wskaźnik sukcesu, na którym testujemy, zbliża się do 1.

Pytanie

Przejdźmy teraz do sedna mojego pytania: ta sama wada dotyczy również przedziałów ufności. W rzeczywistości, jeśli przedział ufności ma określony poziom ufności wówczas przedział ufności nie zawierający parametru w ramach hipotezy zerowej jest równoważny odrzuceniu hipotezy zerowej na poziomie istotności . $\alpha$ $1- \alpha$

Dlaczego przedziały ufności oparte na rozkładzie empirycznym są powszechnie akceptowane, a wartość p nie?

Czy istnieje głębszy powód, czy ludzie nie są tak konserwatywni, jeśli chodzi o przedziały ufności?

W tej odpowiedzi Peter Dalgaard udziela odpowiedzi, która wydaje się zgadzać z moim argumentem. On mówi:

Nie ma nic szczególnie złego w tym rozumowaniu, a przynajmniej nie (znacznie) gorszym niż obliczanie CI.

Skąd pochodzi (dużo)? Oznacza to, że generowanie w ten sposób wartości p jest nieco gorsze, ale nie rozwija się w tym punkcie.

Końcowe przemyślenia

Również we wstępie do Bootstrap autorstwa Efrona i Tibshirani poświęcają dużo miejsca przedziałom ufności, ale nie wartościom p, chyba że są generowane zgodnie z prawidłowym rozkładem hipotezy zerowej, z wyjątkiem jednej odchylonej linii o ogólnej równoważności przedziały ufności i wartości pw rozdziale o testach permutacyjnych.

Wróćmy też do pierwszego pytania, które podłączyłem. Zgadzam się z odpowiedzią Michaela Chernicka, ale ponownie argumentuje on również, że zarówno przedziały ufności, jak i wartości p oparte na empirycznym rozkładzie bootstrapu są równie niewiarygodne w niektórych scenariuszach. Nie wyjaśnia to, dlaczego wiele osób mówi ci, że przedziały są w porządku, ale wartości p nie.

confidence-interval p-value bootstrap Erik
źródło

Zaczynam nagrodę za to pytanie, ponieważ jestem bardzo zainteresowany uzyskaniem jasności co do tego, jak i kiedy elementy CI bootstrap można wykorzystać do zaakceptowania / odrzucenia hipotezy. Być może mógłbyś przeformułować / sformatować swoje pytanie, aby było bardziej zwięzłe i atrakcyjne? Dzięki !

Xavier Bourret Sicotte

Myślę, że większość ludzi zgodzi się z tym, że przy zastosowaniu następujących założeń zastosowanie CI do testu hipotetycznego jest OK: symetryczny rozkład statystyki testowej, kluczowa statystyka testowa, zastosowanie CLT, brak lub kilka uciążliwych parametrów itp., Ale co się stanie, gdy statystyki jest dziwny lub nie ma kluczowego znaczenia. Oto prawdziwy przykład, nad którym pracuję: np. Różnica dwóch próbek między 75 percentylami statystyki stosunku (stosunek dwóch sum)

Xavier Bourret Sicotte

Czy prosta odpowiedź nie polega tylko na tym, że jest jasne, jak próbkować pod hipotezą zerową, więc istnieje alternatywna metoda, która jest zdecydowanie lepsza? Próbkowanie pod bootstrap generalnie zachodzi w rozkładzie empirycznym, więc prawdziwy mechanizm generowania danych, więc wyraźnie nie należy go używać zamiast tylko próbkowania pod wartością zerową. Bootstrapped CI znajduje się po odwróceniu rozkładu próbkowania w ramach prawdziwego mechanizmu generowania danych. To prawda, że CI może nie działać dobrze, ale jak powiedział Dalgaard, niekoniecznie jest oczywiste, jak to naprawić.

jsk

Powinienem wyjaśnić, że rozkład empiryczny jest jedynie przybliżeniem prawdziwego mechanizmu generowania danych. Stopień, w jakim nie jest on reprezentatywny dla prawdy, negatywnie wpłynie na bootstrapped CI w nieznanych kierunkach, prowadząc do pokrycia mniej niż 95%.

jsk

Próbkowanie poniżej wartości zerowej jest jasne, gdy test jest różnicą średnich, ale w wielu przypadkach nie jest oczywiste, jak odtworzyć wartość zerową ... na przykład wartość zerowa polega na tym, że 75 percentyl dwóch stosunków jest taki sam ... jak czy zmieniam liczniki i mianowniki współczynników w każdej próbce, aby to uzyskać? Ponadto, skąd mogę mieć pewność, że przesunięcie składników współczynnika faktycznie odtwarza wartość zerową?

Xavier Bourret Sicotte

Jak powiedział @MichaelChernick w odpowiedzi na komentarz do swojej odpowiedzi na powiązane pytanie :

Zasadniczo istnieje zgodność 1-1 między przedziałami ufności a testami hipotez. Na przykład 95% przedział ufności dla parametru modelu reprezentuje region nie odrzucający dla odpowiedniego testu hipotezy poziomu 5% w odniesieniu do wartości tego parametru. Nie ma wymagań co do kształtu rozkładów populacji. Oczywiście, jeśli ma to zastosowanie do przedziałów ufności ogólnie, będzie miało zastosowanie do przedziałów ufności bootstrap.

Ta odpowiedź dotyczy dwóch powiązanych problemów: (1) dlaczego prezentacje wyników ładowania początkowego wydają się częściej określać przedziały ufności (CI) niż wartości p , jak sugerowano w pytaniu, oraz (2) kiedy obie wartości p i CI określone przez bootstrap można podejrzewać, że są niewiarygodne, co wymaga alternatywnego podejścia.

Nie znam danych, które konkretnie potwierdzają twierdzenie zawarte w tym pytaniu dotyczące pierwszego problemu. Być może w praktyce wiele oszacowań punktów pochodzących z bootstrap jest (lub przynajmniej wydaje się, że jest) tak dalekich od granic decyzji testowych, że zainteresowanie p wartością odpowiedniej hipotezy zerowej jest niewielkie , a głównym zainteresowaniem jest samo oszacowanie punktu i pewna rozsądna miara wielkości prawdopodobnej zmienności.

W odniesieniu do drugiego zagadnienia wiele praktycznych zastosowań obejmuje „symetryczny rozkład statystyki testowej, kluczową statystykę testową, stosowanie CLT, brak lub kilka uciążliwych parametrów itp.” (Jak w komentarzu @XavierBourretSicotte powyżej), dla których nie ma większych trudności. Powstaje zatem pytanie, jak wykryć potencjalne odchylenia od tych warunków i jak sobie z nimi poradzić, gdy się pojawią.

Te potencjalne odchylenia od idealnego zachowania są doceniane od dziesięcioleci, a kilka podejść CI bootstrap opracowano wcześnie, aby sobie z nimi poradzić. Studentizowany bootstrap pomaga zapewnić kluczową statystykę, a metoda BCa radzi sobie zarówno z odchyleniem, jak i skośnością w zakresie uzyskiwania bardziej niezawodnego CI z bootstrapów. Pomocna może być również transformacja danych stabilizująca wariancje przed określeniem CI ładowania początkowego, a następnie transformacja wsteczna do pierwotnej skali.

Przykład w tym pytaniu dotyczący pobierania próbek z 14 głów z 20 rzutów z uczciwej monety jest ładnie obsługiwany przy użyciu CI z metody BCa; w R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Inne szacunki CI stwarzają zauważony problem bycia bardzo blisko lub na granicy wartości populacji wynoszącej 10 sztuk na 20 rzutów. Rachunek CI BCa wykazuje skośność (wprowadzoną przez próbkowanie dwumianowe z dala od parzystych szans), więc ładnie obejmują wartość populacji wynoszącą 10.

Ale zanim zaczniesz korzystać z tych rozwiązań, musisz szukać takich odstępstw od idealnego zachowania. Podobnie jak w przypadku wielu praktyk statystycznych, kluczem może być raczej przeglądanie danych niż tylko podłączanie do algorytmu. Na przykład to pytanie dotyczące CI dla stronniczego wyniku ładowania początkowego pokazuje wyniki dla pierwszych 3 CI pokazanych w powyższym kodzie, ale wykluczono CI BCa. Kiedy próbowałem odtworzyć analizę przedstawioną w tym pytaniu, aby uwzględnić BCa CI, otrzymałem wynik:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

gdzie „w” bierze udział w korekcie błędu systematycznego. Badana statystyka ma ustaloną maksymalną wartość, a oszacowanie wtyczki, które zostało załadowane, było z natury stronnicze. Uzyskanie takiego wyniku powinno wskazywać, że naruszane są zwykłe założenia leżące u podstaw bootstrapowanego CI.

Analiza kluczowej ilości pozwala uniknąć takich problemów; mimo że rozkład empiryczny nie może mieć użytecznych ściśle kluczowych statystyk, ważnym celem jest zbliżenie się tak blisko, jak to rozsądne. Ostatnie kilka akapitów tej odpowiedzi zawiera łącza do dalszych pomocy, takich jak wykresy przestawne do oszacowania za pomocą bootstrap, czy statystyki (potencjalnie po pewnej transformacji danych) są bliskie kluczowej, oraz kosztownie obliczeniowe, ale potencjalnie decydujące podwójne bootstrap.

EdM
źródło

Dzięki edm! Jeśli między CI a testem hipotez jest 1-1 rekation - dlaczego testowanie bootstrap zwykle wymaga przesunięcia zbiorów danych w celu odtworzenia wartości zerowej? Czy w ten sposób nie uzyskujemy innych wyników niż na przykład, obliczając CI rozkładu różnicy na przykład?

Xavier Bourret Sicotte

@XavierBourretSicotte Nie sądzę, że to całkiem poprawne, że „testowanie bootstrap zwykle polega na przesunięciu zestawów danych w celu odtworzenia wartości null”. Każda próbka bootstrap jest próbą odtworzenia oryginalnego próbkowania / eksperymentu, wykorzystując próbkę do reprezentowania populacji podstawowej. Jeśli jednak dane statystyki nie są kluczowe, wówczas CI opracowane na próbkach bootstrapped nie będzie reprezentować CI rozwiniętych na podstawowej populacji. Musisz więc skorygować rozkład statystyki w stosunku do wartości zerowej, stosując BCa lub inne metody.

EdM

Nieparametryczne wartości p ładowania początkowego a przedziały ufności

Kontekst

Przykład

Pytanie

Końcowe przemyślenia

Odpowiedzi: