Uzasadnienie jednostronnego testowania hipotez

35

Rozumiem dwustronne testowanie hipotez. Masz (vs. H 1 = ¬ H 0 : θ θ 0 ). Wartość p jest prawdopodobieństwem, że θ generuje dane co najmniej tak ekstremalne, jak zaobserwowano.H0:θ=θ0H1=¬H0:θθ0pθ

Nie rozumiem jednostronnego testowania hipotez. Tutaj (vs H 1 = ¬ H 0 : θ > θ 0 ). Definicja wartości p nie powinna była ulec zmianie z góry: nadal powinno być prawdopodobieństwo, że θ generuje dane przynajmniej tak ekstremalne, jak to, co zaobserwowano. Ale nie wiemy θ , tylko, że jest on ograniczony przez θ 0H0:θθ0H1=¬H0:θ>θ0θ θθ0 .

Zamiast tego widzę teksty mówiące nam, aby przyjąć, że (nie θ θ 0 zgodnie z H 0 ) i obliczam prawdopodobieństwo, że generuje to dane co najmniej tak ekstremalne, jak to, co zaobserwowano, ale tylko na jednym końcu. Technicznie wydaje się, że nie ma to nic wspólnego z hipotezami.θ=θ0θθ0H0

Teraz rozumiem, że jest to hipoteza częstościowym testowanie i że frequentists umieszczać żadnych prawdopodobieństw a priori na temat ich s. Ale czy nie powinno to oznaczać, że hipotezy są niemożliwe do zaakceptowania lub odrzucenia, a nie zamienić powyższe obliczenia na obraz?θ

Yang
źródło
Podobne pytanie zostało zadane później stats.stackexchange.com/questions/8196/…
robin girard
1
Twoja definicja wartości jest niepełna. Należy przeczytać (wyróżnienie dodane): Wartość p oznacza prawdopodobieństwo, że θ generuje dane co najmniej tak ekstremalne, jak to, co zaobserwowano, przy założeniu , że hipoteza zerowa jest prawdziwa . ppθ
Alexis,

Odpowiedzi:

34

To przemyślane pytanie. Wiele tekstów (być może z powodów pedagogicznych) pisze na ten temat. Tak naprawdę dzieje się tak, że jest złożoną „hipotezą” w twojej jednostronnej sytuacji: w rzeczywistości jest to zestaw hipotez, a nie pojedyncza. Konieczne jest, aby dla każdej możliwej hipotezy w H 0H0 H0, prawdopodobieństwo spadku statystyki testowej w obszarze krytycznym musi być mniejsze lub równe rozmiarowi testu. Ponadto, jeśli test ma faktycznie osiągnąć jego nominalny rozmiar (co jest dobre dla osiągnięcia wysokiej mocy), wówczas supremum tych szans (przejęte przez wszystkie hipotezy zerowe) powinno być równe nominalnemu rozmiarowi. W praktyce w przypadku prostych jednoparametrowych testów lokalizacji obejmujących pewne „ładne” rodziny rozkładów supremum osiąga się dla hipotezy o parametrze . Zatem w praktyce wszystkie obliczenia koncentrują się na tej jednej dystrybucji. Nie wolno nam jednak zapominać o reszcie zestawu H 0θ0H0: jest to kluczowe rozróżnienie między testami dwustronnymi i jednostronnymi (oraz ogólnie między testami „prostymi” i „złożonymi”).

Ma to subtelny wpływ na interpretację wyników testów jednostronnych. Kiedy wartość zerowa jest odrzucana, możemy powiedzieć, że dowody wskazują na to, że prawdziwym stanem przyrody jest dowolny rozkład w . Gdy wartość zerowa nie jest odrzucana, możemy jedynie powiedzieć, że istnieje rozkład w H 0, który jest „zgodny” z obserwowanymi danymi. Jesteśmy nie mówiąc, że wszystkie dystrybucje w H 0 są zgodne z danymi: daleko od niego! Wiele z nich może dawać bardzo niskie prawdopodobieństwo.H0H0H0

Whuber
źródło
Wszystko, co powiedziałeś, jest ważne i ważne. Innym ważnym aspektem, moim zdaniem, jest to, że zazwyczaj hipoteza zerowa jest postrzegana jako nieinteresująca hipoteza. Alternatywę uważa się za hipotezę naukową. To ten, który eksperymentator chciałby udowodnić. Mówię zwykle, ponieważ różni się testami równoważności i nieszerokości. Jeśli chodzi o kwestię testowania jednostronnego, powiedzmy tylko, że strona, której parametr jest większy niż interesująca wartość null. Więc wszystkie wartości po stronie mniejszej niż są uwzględnione w wartości zerowej.
Michael R. Chernick
stats.stackexchange.com/questions/333301/... Jeśli masz ochotę udzielić odpowiedzi na to pytanie lub wskazać mi bibliografię ...;)
Stary człowiek w morzu.
6

Widzę wartość jako maksymalne prawdopodobieństwo błędu typu I. Jeśli θ θ 0 , prawdopodobieństwo stopy błędów typu I może być faktycznie zerowe, ale niech tak będzie. Patrząc na test z perspektywy minimax, przeciwnik nigdy nie sięgałby głęboko z „wnętrza” hipotezy zerowej i nie należy wpływać na moc. W prostych sytuacjach ( na przykład test t ) możliwe jest zbudowanie testu z gwarantowaną maksymalną częstością typu I, pozwalającą na takie jednostronne hipotezy zerowe.pθθ0t

shabbychef
źródło
2

Zastosowałbyś jednostronny test hipotez, jeśli tylko wyniki w jednym kierunku potwierdzają wniosek, do którego dążysz.

Pomyśl o tym w kontekście zadanego pytania. Załóżmy na przykład, że chcesz sprawdzić, czy otyłość prowadzi do zwiększonego ryzyka zawału serca. Gromadzisz swoje dane, które mogą składać się z 10 osób otyłych i 10 osób nie otyłych. Powiedzmy teraz, że z powodu niezarejestrowanych czynników zakłócających, złego projektu eksperymentalnego lub po prostu pecha, zauważasz, że tylko 2 na 10 osób otyłych ma zawał serca, w porównaniu do 8 osób nieotyłych.

Teraz, jeśli miałbyś przeprowadzić dwustronny test hipotezy na tych danych, wyciągnąłbyś wniosek, że istnieje statystycznie istotny związek (p ~ 0,02) między otyłością a ryzykiem zawału serca. Jednak skojarzenie byłoby w przeciwnym kierunku niż to, czego się spodziewałeś, dlatego wynik testu byłby mylący.

(W prawdziwym życiu eksperyment, który przyniósł taki sprzeczny z intuicją wynik, może prowadzić do dalszych pytań, które same w sobie są interesujące: na przykład proces gromadzenia danych może wymagać ulepszenia lub mogą występować nieznane wcześniej czynniki ryzyka w pracy, lub może konwencjonalna mądrość jest po prostu błędna. Ale te kwestie nie są tak naprawdę związane z wąskim pytaniem, jakiego rodzaju testu hipotez użyć.)

Hong Ooi
źródło
2

The p-wartość jest prawdopodobieństwem danego zdarzenia pod warunkiem, żeH.0to prawda . Najprostszym możliwym przykładem zabawki są dwa rzuty monetą. DwustronnyH.0byłoby to, że uważasz monety za uczciwe, tzn. rzucasz jedną głową i jednym ogonem. Prawdopodobieństwo tego jest0,5. H.1w tym przypadku jest to, że uważasz, że jest on tendencyjny w jedną lub drugą stronę, tj. albo rzucasz dwiema głowami lub dwoma ogonami. Prawdopodobieństwo to znowu0,5

Dla jednostronnego H.0pomyśl o grze, w której kładziesz pieniądze na głowy. Jesteś w porządku, gdy moneta jest uczciwa, ale oczywiście również wygodna, ponieważ jest nastawiona na głowy. To jest twojeH.0 gdzie masz możliwości jednej głowy i jednego ogona lub dwóch głów: 0,75 prawdopodobieństwo. H.1 jest tylko pozostałym przypadkiem dwóch ogonów, w których nazwałbyś faul: 0,25prawdopodobieństwo. Pamiętaj, że ponieważ uważasz cały region od uczciwego do stronniczego w stosunku do głów, ponieważ twoje dwa ogony są uważane za znacznie bardziej nieprawdopodobne i jeszcze bardziej sugestywne, że coś jest nie tak.

Teraz, gdy nasze wydarzenia H.1zdarzają się jednak, ich prawdopodobieństwami są wartości p pod warunkiem, że odpowiednieH.0są prawdziwe - jak wspomniano powyżej. Zatem w zależności od poziomu pewności możesz lub nie możesz odrzucić swojegoH.0„s.

Możesz sam eksperymentować z tym przykładem zabawki w R, powinieneś również wypróbować różne liczby bezwzględne i kombinacje głów i ogonów:

> binom.test(2,2,alternative="two.sided")

    Exact binomial test

data:  2 and 2
number of successes = 2, number of trials = 2, p-value = 0.5
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.1581139 1.0000000
sample estimates:
probability of success 
                     1

> binom.test(2,2,alternative="greater")

    Exact binomial test

data:  2 and 2
number of successes = 2, number of trials = 2, p-value = 0.25
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
 0.2236068 1.0000000
sample estimates:
probability of success 
                     1 
vonjd
źródło