Moja sytuacja jest następująca: chcę, poprzez badanie Monte-Carlo, porównać wartości dwóch różnych testów dla istotności statystycznej szacowanego parametru (zero to „brak efektu - parametr wynosi zero”, a implikowaną alternatywą jest „ parametr nie jest zerem ”). Test A to standardowy „niezależny test t dla dwóch próbek dla równości średnich” , z równymi wariancjami poniżej wartości zerowej.
Test B Skonstruowałem siebie. Tutaj zastosowany rozkład zerowy jest asymetrycznym ogólnym rozkładem dyskretnym. Ale znalazłem następujący komentarz w Rohatgi i Saleh (2001, 2nd ed, str. 462)
„Jeśli rozkład nie jest symetryczny, wartość nie jest dobrze zdefiniowana w przypadku dwustronnym, chociaż wielu autorów zaleca podwojenie jednostronnej wartości ” .
Autorzy nie dyskutują o tym dalej, ani nie komentują „sugestii wielu autorów”, aby podwoić jednostronną wartość . (Stwarza to pytanie „podwoić wartość dla której strony? A dlaczego ta strona, a nie druga?)
Nie udało mi się znaleźć żadnego komentarza, opinii ani wyniku w tej sprawie. Rozumiem, że przy rozkładzie asymetrycznym, chociaż możemy rozważyć interwał symetryczny wokół hipotezy zerowej w odniesieniu do wartości parametru, nie będziemy mieli drugiej zwykłej symetrii, alokacji masy prawdopodobieństwa. Ale nie rozumiem, dlaczego powoduje to, że wartość „źle zdefiniowana”. Osobiście, stosując symetryczny interwał wokół hipotezy zerowej dla wartości estymatora, nie widzę definicjiproblem z powiedzeniem „prawdopodobieństwo, że rozkład zerowy da wartości równe granicom lub poza tym przedziałem, wynosi XX”. Fakt, że masa prawdopodobieństwa z jednej strony będzie inna niż masa prawdopodobieństwa z drugiej strony, nie wydaje się powodować problemów, przynajmniej dla moich celów. Ale bardziej prawdopodobne jest, że Rohatgi i Saleh wiedzą coś, czego ja nie wiem.
Oto moje pytanie: w jakim sensie wartość jest (lub może być) „niezbyt dobrze określona” w przypadku testu dwustronnego, gdy rozkład zerowy nie jest symetryczny?
Być może ważna uwaga: bardziej podchodzę do tej kwestii w duchu fisheryjskim, nie staram się uzyskać ścisłej reguły decyzyjnej w sensie Neymana-Pearsona. Pozostawiam użytkownikowi testu wykorzystanie informacji o wartości wraz z innymi informacjami do wnioskowania.
źródło
Odpowiedzi:
Jeśli przyjrzymy się dokładnemu testowi 2x2 i uznamy to za nasze podejście, to, co jest „bardziej ekstremalne”, można bezpośrednio zmierzyć na podstawie „niższego prawdopodobieństwa”. (Agresti [1] wspomina o różnych podejściach różnych autorów do obliczania dwóch wartości p tailed tylko dla tego przypadku testu dokładnego 2x2 Fishera, z których to podejście jest jednym z trzech omawianych jako „najbardziej popularne”).
W przypadku ciągłego (unimodalnego) rozkładu, po prostu znajdujesz punkt w drugim ogonie o tej samej gęstości co twoja wartość próbki, a wszystko o równym lub niższym prawdopodobieństwie w drugim ogonie jest liczone w obliczeniach wartości p.
W przypadku dyskretnych rozkładów, które monotonicznie nie rosną w ogonach, jest to tak samo proste. Po prostu policzysz wszystko z jednakowym lub niższym prawdopodobieństwem niż próbka, co biorąc pod uwagę założenia, które dodałem (aby dopasować termin „ogony” do pomysłu), daje sposób na jego wypracowanie.
Jeśli znasz interwały HPD (i znowu mamy do czynienia z nieimodalnością), jest to w zasadzie przeniesienie wszystkiego poza otwarty interwał HPD, który jest ograniczony jednym ogonem przez twoją statystykę próbki.
[Powtórzmy - jest to prawdopodobieństwo poniżej zera, który zrównujemy tutaj.]
Tak więc przynajmniej w przypadku unimodal wydaje się wystarczająco proste, aby naśladować dokładny test Fishera i nadal mówić o dwóch ogonach.
Być może jednak nie zamierzałeś w ten sposób przywoływać ducha dokładnego testu Fishera.
Więc zastanawiając się przez chwilę nad tym, co czyni coś „takim lub bardziej ekstremalnym”, przejdźmy jeszcze trochę w stronę końca rzeczy Neymana-Pearsona. Może pomóc (zanim zaczniesz testować!) W określeniu regionu odrzucenia dla testu przeprowadzonego na pewnym poziomie ogólnym (nie mam na myśli, że musisz dosłownie go obliczyć, tak jak byś go obliczył). Jak tylko to zrobisz, sposób obliczenia dwóch wartości p dla twojego przypadku powinien stać się oczywisty.α
Takie podejście może być cenne, nawet jeśli ktoś przeprowadza test poza zwykłym testem współczynnika wiarygodności. W przypadku niektórych aplikacji ustalenie sposobu obliczania wartości pw asymetrycznych testach permutacji może być trudne, ale często staje się znacznie prostsze, jeśli najpierw pomyślisz o regule odrzucania.
Za pomocą testów F wariancji zauważyłem, że „wartość p podwójnego jednego ogona” może dać zupełnie inne wartości p, co uważam za właściwe podejście. [Nie powinno mieć znaczenia, którą grupę nazywasz „próbką 1”, ani czy wstawisz większą lub mniejszą wariancję do licznika.]
[1]: Agresti, A. (1992),
A Survey of Exact Inference for Foringency Tables
Statistics Science , tom. 7 , nr 1. (luty), s. 131–153.
źródło
Rodzaj sequel tej odpowiedzi, omawiając niektóre zasady konstrukcji testowej, w której hipoteza alternatywna jest wyraźnie stwierdził, można znaleźć tutaj .
dla dolnej i górnej jednostronnej wartości p, dwustronna wartość p jest podana przez
źródło