Rozumiem dwustronne testowanie hipotez. Masz (vs. H 1 = ¬ H 0 : θ ≠ θ 0 ). Wartość p jest prawdopodobieństwem, że θ generuje dane co najmniej tak ekstremalne, jak zaobserwowano.
Nie rozumiem jednostronnego testowania hipotez. Tutaj (vs H 1 = ¬ H 0 : θ > θ 0 ). Definicja wartości p nie powinna była ulec zmianie z góry: nadal powinno być prawdopodobieństwo, że θ generuje dane przynajmniej tak ekstremalne, jak to, co zaobserwowano. Ale nie wiemy θ , tylko, że jest on ograniczony przez θ 0 .
Zamiast tego widzę teksty mówiące nam, aby przyjąć, że (nie θ ≤ θ 0 zgodnie z H 0 ) i obliczam prawdopodobieństwo, że generuje to dane co najmniej tak ekstremalne, jak to, co zaobserwowano, ale tylko na jednym końcu. Technicznie wydaje się, że nie ma to nic wspólnego z hipotezami.
Teraz rozumiem, że jest to hipoteza częstościowym testowanie i że frequentists umieszczać żadnych prawdopodobieństw a priori na temat ich s. Ale czy nie powinno to oznaczać, że hipotezy są niemożliwe do zaakceptowania lub odrzucenia, a nie zamienić powyższe obliczenia na obraz?
źródło
Odpowiedzi:
To przemyślane pytanie. Wiele tekstów (być może z powodów pedagogicznych) pisze na ten temat. Tak naprawdę dzieje się tak, że jest złożoną „hipotezą” w twojej jednostronnej sytuacji: w rzeczywistości jest to zestaw hipotez, a nie pojedyncza. Konieczne jest, aby dla każdej możliwej hipotezy w H 0H0 H0 , prawdopodobieństwo spadku statystyki testowej w obszarze krytycznym musi być mniejsze lub równe rozmiarowi testu. Ponadto, jeśli test ma faktycznie osiągnąć jego nominalny rozmiar (co jest dobre dla osiągnięcia wysokiej mocy), wówczas supremum tych szans (przejęte przez wszystkie hipotezy zerowe) powinno być równe nominalnemu rozmiarowi. W praktyce w przypadku prostych jednoparametrowych testów lokalizacji obejmujących pewne „ładne” rodziny rozkładów supremum osiąga się dla hipotezy o parametrze . Zatem w praktyce wszystkie obliczenia koncentrują się na tej jednej dystrybucji. Nie wolno nam jednak zapominać o reszcie zestawu H 0θ0 H0 : jest to kluczowe rozróżnienie między testami dwustronnymi i jednostronnymi (oraz ogólnie między testami „prostymi” i „złożonymi”).
Ma to subtelny wpływ na interpretację wyników testów jednostronnych. Kiedy wartość zerowa jest odrzucana, możemy powiedzieć, że dowody wskazują na to, że prawdziwym stanem przyrody jest dowolny rozkład w . Gdy wartość zerowa nie jest odrzucana, możemy jedynie powiedzieć, że istnieje rozkład w H 0, który jest „zgodny” z obserwowanymi danymi. Jesteśmy nie mówiąc, że wszystkie dystrybucje w H 0 są zgodne z danymi: daleko od niego! Wiele z nich może dawać bardzo niskie prawdopodobieństwo.H0 H0 H0
źródło
Widzę wartość jako maksymalne prawdopodobieństwo błędu typu I. Jeśli θ ≪ θ 0 , prawdopodobieństwo stopy błędów typu I może być faktycznie zerowe, ale niech tak będzie. Patrząc na test z perspektywy minimax, przeciwnik nigdy nie sięgałby głęboko z „wnętrza” hipotezy zerowej i nie należy wpływać na moc. W prostych sytuacjach ( na przykład test t ) możliwe jest zbudowanie testu z gwarantowaną maksymalną częstością typu I, pozwalającą na takie jednostronne hipotezy zerowe.p θ≪θ0 t
źródło
Zastosowałbyś jednostronny test hipotez, jeśli tylko wyniki w jednym kierunku potwierdzają wniosek, do którego dążysz.
Pomyśl o tym w kontekście zadanego pytania. Załóżmy na przykład, że chcesz sprawdzić, czy otyłość prowadzi do zwiększonego ryzyka zawału serca. Gromadzisz swoje dane, które mogą składać się z 10 osób otyłych i 10 osób nie otyłych. Powiedzmy teraz, że z powodu niezarejestrowanych czynników zakłócających, złego projektu eksperymentalnego lub po prostu pecha, zauważasz, że tylko 2 na 10 osób otyłych ma zawał serca, w porównaniu do 8 osób nieotyłych.
Teraz, jeśli miałbyś przeprowadzić dwustronny test hipotezy na tych danych, wyciągnąłbyś wniosek, że istnieje statystycznie istotny związek (p ~ 0,02) między otyłością a ryzykiem zawału serca. Jednak skojarzenie byłoby w przeciwnym kierunku niż to, czego się spodziewałeś, dlatego wynik testu byłby mylący.
(W prawdziwym życiu eksperyment, który przyniósł taki sprzeczny z intuicją wynik, może prowadzić do dalszych pytań, które same w sobie są interesujące: na przykład proces gromadzenia danych może wymagać ulepszenia lub mogą występować nieznane wcześniej czynniki ryzyka w pracy, lub może konwencjonalna mądrość jest po prostu błędna. Ale te kwestie nie są tak naprawdę związane z wąskim pytaniem, jakiego rodzaju testu hipotez użyć.)
źródło
Thep -wartość jest prawdopodobieństwem danego zdarzenia pod warunkiem, żeH.0 to prawda . Najprostszym możliwym przykładem zabawki są dwa rzuty monetą. DwustronnyH.0 byłoby to, że uważasz monety za uczciwe, tzn. rzucasz jedną głową i jednym ogonem. Prawdopodobieństwo tego jest0,5 . H.1 w tym przypadku jest to, że uważasz, że jest on tendencyjny w jedną lub drugą stronę, tj. albo rzucasz dwiema głowami lub dwoma ogonami. Prawdopodobieństwo to znowu0,5
Dla jednostronnegoH.0 pomyśl o grze, w której kładziesz pieniądze na głowy. Jesteś w porządku, gdy moneta jest uczciwa, ale oczywiście również wygodna, ponieważ jest nastawiona na głowy. To jest twojeH.0 gdzie masz możliwości jednej głowy i jednego ogona lub dwóch głów: 0,75 prawdopodobieństwo. H.1 jest tylko pozostałym przypadkiem dwóch ogonów, w których nazwałbyś faul: 0,25 prawdopodobieństwo. Pamiętaj, że ponieważ uważasz cały region od uczciwego do stronniczego w stosunku do głów, ponieważ twoje dwa ogony są uważane za znacznie bardziej nieprawdopodobne i jeszcze bardziej sugestywne, że coś jest nie tak.
Teraz, gdy nasze wydarzeniaH.1 zdarzają się jednak, ich prawdopodobieństwami są wartości p pod warunkiem, że odpowiednieH.0 są prawdziwe - jak wspomniano powyżej. Zatem w zależności od poziomu pewności możesz lub nie możesz odrzucić swojegoH.0 „s.
Możesz sam eksperymentować z tym przykładem zabawki w R, powinieneś również wypróbować różne liczby bezwzględne i kombinacje głów i ogonów:
źródło