Wartość p w teście dwustronnym z asymetrycznym rozkładem zerowym

Moja sytuacja jest następująca: chcę, poprzez badanie Monte-Carlo, porównać wartości $p$ dwóch różnych testów dla istotności statystycznej szacowanego parametru (zero to „brak efektu - parametr wynosi zero”, a implikowaną alternatywą jest „ parametr nie jest zerem ”). Test A to standardowy „niezależny test t dla dwóch próbek dla równości średnich” , z równymi wariancjami poniżej wartości zerowej.

Test B Skonstruowałem siebie. Tutaj zastosowany rozkład zerowy jest asymetrycznym ogólnym rozkładem dyskretnym. Ale znalazłem następujący komentarz w Rohatgi i Saleh (2001, 2nd ed, str. 462)

„Jeśli rozkład nie jest symetryczny, wartość $p$ nie jest dobrze zdefiniowana w przypadku dwustronnym, chociaż wielu autorów zaleca podwojenie jednostronnej wartości $p$ ” .

Autorzy nie dyskutują o tym dalej, ani nie komentują „sugestii wielu autorów”, aby podwoić jednostronną wartość $p$ . (Stwarza to pytanie „podwoić wartość $p$ dla której strony? A dlaczego ta strona, a nie druga?)

Nie udało mi się znaleźć żadnego komentarza, opinii ani wyniku w tej sprawie. Rozumiem, że przy rozkładzie asymetrycznym, chociaż możemy rozważyć interwał symetryczny wokół hipotezy zerowej w odniesieniu do wartości parametru, nie będziemy mieli drugiej zwykłej symetrii, alokacji masy prawdopodobieństwa. Ale nie rozumiem, dlaczego powoduje to, że wartość $p$ „źle zdefiniowana”. Osobiście, stosując symetryczny interwał wokół hipotezy zerowej dla wartości estymatora, nie widzę definicjiproblem z powiedzeniem „prawdopodobieństwo, że rozkład zerowy da wartości równe granicom lub poza tym przedziałem, wynosi XX”. Fakt, że masa prawdopodobieństwa z jednej strony będzie inna niż masa prawdopodobieństwa z drugiej strony, nie wydaje się powodować problemów, przynajmniej dla moich celów. Ale bardziej prawdopodobne jest, że Rohatgi i Saleh wiedzą coś, czego ja nie wiem.

Oto moje pytanie: w jakim sensie wartość $p$ jest (lub może być) „niezbyt dobrze określona” w przypadku testu dwustronnego, gdy rozkład zerowy nie jest symetryczny?

Być może ważna uwaga: bardziej podchodzę do tej kwestii w duchu fisheryjskim, nie staram się uzyskać ścisłej reguły decyzyjnej w sensie Neymana-Pearsona. Pozostawiam użytkownikowi testu wykorzystanie informacji o wartości wraz z innymi informacjami do wnioskowania. $p$

hypothesis-testing p-value Alecos Papadopoulos
źródło

Oprócz podejść opartych na prawdopodobieństwie („Fisherian”) i opartych na LR (NP), inna metoda rozważa, jak uzyskać krótkie przedziały ufności i wykorzystuje je do testowania hipotez. Odbywa się to w duchu teorii decyzji (i przy użyciu jej metod), gdzie długość jest uwzględniona w funkcji straty. W przypadku unimodalnych rozkładów symetrycznych statystyki testowej, oczywiście najkrótsze możliwe przedziały są uzyskiwane przy użyciu przedziałów symetrycznych (zasadniczo „podwajając wartość p” testów jednostronnych). Przedziały o najkrótszej długości zależą od parametryzacji: dlatego nie mogą być rybołowskie.

whuber

Zastanawiałem się, czy zamieszczone tutaj odpowiedzi będą miały również zastosowanie do dystrybucji beta. Dzięki.

JLT

@JLT: Tak, dlaczego nie?

Scortchi - Przywróć Monikę

Odpowiedzi:

Jeśli przyjrzymy się dokładnemu testowi 2x2 i uznamy to za nasze podejście, to, co jest „bardziej ekstremalne”, można bezpośrednio zmierzyć na podstawie „niższego prawdopodobieństwa”. (Agresti [1] wspomina o różnych podejściach różnych autorów do obliczania dwóch wartości p tailed tylko dla tego przypadku testu dokładnego 2x2 Fishera, z których to podejście jest jednym z trzech omawianych jako „najbardziej popularne”).

W przypadku ciągłego (unimodalnego) rozkładu, po prostu znajdujesz punkt w drugim ogonie o tej samej gęstości co twoja wartość próbki, a wszystko o równym lub niższym prawdopodobieństwie w drugim ogonie jest liczone w obliczeniach wartości p.

W przypadku dyskretnych rozkładów, które monotonicznie nie rosną w ogonach, jest to tak samo proste. Po prostu policzysz wszystko z jednakowym lub niższym prawdopodobieństwem niż próbka, co biorąc pod uwagę założenia, które dodałem (aby dopasować termin „ogony” do pomysłu), daje sposób na jego wypracowanie.

Jeśli znasz interwały HPD (i znowu mamy do czynienia z nieimodalnością), jest to w zasadzie przeniesienie wszystkiego poza otwarty interwał HPD, który jest ograniczony jednym ogonem przez twoją statystykę próbki.

wprowadź opis zdjęcia tutaj

[Powtórzmy - jest to prawdopodobieństwo poniżej zera, który zrównujemy tutaj.]

Tak więc przynajmniej w przypadku unimodal wydaje się wystarczająco proste, aby naśladować dokładny test Fishera i nadal mówić o dwóch ogonach.

Być może jednak nie zamierzałeś w ten sposób przywoływać ducha dokładnego testu Fishera.

Więc zastanawiając się przez chwilę nad tym, co czyni coś „takim lub bardziej ekstremalnym”, przejdźmy jeszcze trochę w stronę końca rzeczy Neymana-Pearsona. Może pomóc (zanim zaczniesz testować!) W określeniu regionu odrzucenia dla testu przeprowadzonego na pewnym poziomie ogólnym (nie mam na myśli, że musisz dosłownie go obliczyć, tak jak byś go obliczył). Jak tylko to zrobisz, sposób obliczenia dwóch wartości p dla twojego przypadku powinien stać się oczywisty. $\alpha$

Takie podejście może być cenne, nawet jeśli ktoś przeprowadza test poza zwykłym testem współczynnika wiarygodności. W przypadku niektórych aplikacji ustalenie sposobu obliczania wartości pw asymetrycznych testach permutacji może być trudne, ale często staje się znacznie prostsze, jeśli najpierw pomyślisz o regule odrzucania.

Za pomocą testów F wariancji zauważyłem, że „wartość p podwójnego jednego ogona” może dać zupełnie inne wartości p, co uważam za właściwe podejście. [Nie powinno mieć znaczenia, którą grupę nazywasz „próbką 1”, ani czy wstawisz większą lub mniejszą wariancję do licznika.]

[1]: Agresti, A. (1992),
A Survey of Exact Inference for Foringency Tables
Statistics Science , tom. 7 , nr 1. (luty), s. 131–153.

Glen_b - Przywróć Monikę
źródło

ctd ... Jeśli przeprowadzamy test współczynnika prawdopodobieństwa, współczynnik prawdopodobieństwa jest zawsze jednostronny, ale jeśli konstruujemy równoważny test dwustronny w oparciu o jakąś statystykę, to nadal szukamy mniejszych wskaźników prawdopodobieństwa, aby zlokalizować „bardziej ekstremalne”

Glen_b

Podwojenie jednostronnej wartości p można obronić jako korektę Bonferroniego do przeprowadzenia dwóch jednostronnych testów. W końcu po dwustronnym teście jesteśmy zwykle bardzo skłonni uznać wszelkie wątpliwości dotyczące prawdziwości zerowej za faworyzowanie innej hipotezy, której kierunek określają dane.

Scortchi - Przywróć Monikę

@Alecos jest wystarczająco prosty, aby uzasadnić symetryczny wybór! Trudno mi zrozumieć, w jaki sposób przeczytałeś to, co napisałem, ponieważ sugerowanie, że wybór symetryczny nie był w żaden sposób uzasadniony (wybór ten jest objęty dyskusją, którą przeprowadziłem na temat reguły odrzucania - możesz łatwo zbudować symetryczny reguła odrzucenia). Pierwszą częścią mojej odpowiedzi była odpowiedź na część pytania dotyczącego Fishera. Jeśli zapytasz o Fishera, czy nie powinienem omawiać, co według niego mógłby zrobić Fisher, w oparciu o to, co zrobił w podobnych okolicznościach? Wydaje się, że interpretujesz moją odpowiedź jako powiedzenie czegoś więcej niż jest.

Glen_b

@Alecos W szczególności nie opowiadam się za podejściem Fishera ani Neymana Pearsona (niezależnie od tego, czy mówimy o testach współczynnika prawdopodobieństwa, czy po prostu testach hipotez bardziej ogólnie), ani nie powinieneś uważać mnie za próbę zasugerowania, że wszystko, co pominąłem, może być złe . Właśnie omawiam kilka rzeczy, które zdawałeś się poruszać w swoim pytaniu.

Glen_b

Ostatecznie tak. Przyjemne w podejściu Fishera jest to, że daje bardzo rozsądny sposób na osiągnięcie wartości p, nawet bez alternatywy. Ale jeśli masz konkretne interesujące alternatywy, możesz skierować swój region odrzucenia mniej lub bardziej dokładnie na te alternatywy, deklarując części obszaru próbki, w których alternatywy będą miały tendencję do umieszczania twoich próbek jako region odrzucenia. Statystyka testowa, T, jest wygodnym sposobem na osiągnięcie tego, w istocie poprzez powiązanie pojedynczej liczby z każdym punktem w niej (dając nam „bardziej ekstremalne” mierzone przez T). ... ctd

Przywróć Monikę

$S$ $T$ $S$ $T=|S|$

$t=\min(\Pr_{H_0}(S<s),\Pr_{H_0}(S>s))$ $S$ $2t$

$S$ $S$ $T=f_S(S)$ $X$ $1.66$ $-1.66$

p = Pr (X > 1.66) + Pr (X < - 1.66) = 0.048457 + 0.048457 = 0.09691.

$p=\Pr(X > 1.66) +\Pr(X<-1.66)=0.048457+0.048457=0.09691.$

Y

$Y$

e^{1.66} = 5.2593

$\mathrm{e}^{1.66}=5.2593$

0.025732

$0.025732$

= e^{- 3.66}

$=\mathrm{e}^{-3.66}$

p = Pr (Y > 5.2593) + Pr (Y < 0.025732) = 0.048457 + 0.00012611 = 0.04858.

$p=\Pr(Y>5.2593) +\Pr(Y<0.025732)=0.048457+0.00012611=0.04858.$

\begin{aligned} p = 2 t & = 2 min (Pr (X < 1.66), Pr (X > 1.66)) \\ = 2 min (Pr (Y < 5.2593), Pr (Y > 5.2593)) \\ = 2 min (0.048457, 0.951543) \\ = 2 \times 0.048457 = 0.09691. \end{aligned}

$\begin{align}p=2t&=2\min(\Pr(X<1.66),\Pr(X>1.66))\\&=2\min(\Pr(Y<5.2593),\Pr(Y>5.2593))\\&=2\min(0.048457,0.951543)\\&=2\times 0.048457=0.09691.\end{align}$

Rodzaj sequel tej odpowiedzi, omawiając niektóre zasady konstrukcji testowej, w której hipoteza alternatywna jest wyraźnie stwierdził, można znaleźć tutaj .

$S$

p_{L} = \underset{H_{0}}{Pr} (S \leq s)

$p_\mathrm{L} = \Pr_{H_0}(S\leq s)$

p_{U} = \underset{H_{0}}{Pr} (S \geq s)

$p_\mathrm{U} = \Pr_{H_0}(S\geq s)$

dla dolnej i górnej jednostronnej wartości p, dwustronna wartość p jest podana przez

Pr (T \leq t) = {\begin{cases} p_{L} + \underset{H_{0}}{Pr} (P_{U} \leq p_{L}) & when p_{L} \leq p_{U} \\ p_{U} + \underset{H_{0}}{Pr} (P_{L} \leq p_{U}) & otherwise \end{cases}

$\Pr(T\leq t) = \begin{cases} p_\mathrm{L} + \Pr_{H_0}(P_\mathrm{U} \leq p_\mathrm{L}) & \text{when}\ p_\mathrm{L} \leq p_\mathrm{U}\\ p_\mathrm{U} + \Pr_{H_0}(P_\mathrm{L} \leq p_\mathrm{U}) & \text{otherwise} \end{cases}$

$2t$

Scortchi - Przywróć Monikę
źródło

Och wow. To bardzo dobra uwaga, +1. Jaka jest twoja rada? Czy mogę również interpretować tę rozbieżność jako odpowiadającą różnym (w tym przypadku domyślnym) wyborom statystyki testowej?

ameba mówi Przywróć Monikę

@amoeba: Nie literówka! A kiedy obserwujesz 1,66, bierzesz minimum 0,952 i 0,048. Jeśli faktycznie zaobserwowałeś -3,66, byłoby to minimum 0,0001 i 0,9999.

Scortchi - Przywróć Monikę

@Scortchi Właśnie zaakceptowałem odpowiedź Glen_b, ponieważ była ona dla mnie bardziej „użyteczna” w wąskim znaczeniu. Ale twój pomógł mi uniknąć pułapki myślenia, że „to wszystko, co w tym jest”, która jest doskonałą polisą ubezpieczeniową na przyszłe ryzyko. Dzięki jeszcze raz.

Alecos Papadopoulos

@Scortchi Muszę się zgodzić; moja odpowiedź przyjęła raczej uproszczony i jednostronny pogląd i powinienem ją zakwalifikować, rozszerzyć i uzasadnić. Prawdopodobnie zrobię to w kilku etapach.

Glen_b

@Glen_b: Dzięki, nie mogę się doczekać. Chcę również rozszerzyć moje, aby pokazać, w jaki sposób testy punktowe i testy ogólnego prawdopodobieństwa dają różne odpowiedzi (ogólnie); a teoria obiektywnych testów jest z pewnością warta wzmianki w tym kontekście (ale ledwo ją pamiętam).

Scortchi - Przywróć Monikę