Studiując kurs statystyki, starałem się zrozumieć różnicę między testami hipotez jedno- i dwustronnych. W szczególności dlaczego test jednostronny odrzuca wartość zerową, podczas gdy test dwustronny nie?
Przykład:
hypothesis-testing
Lu Ci
źródło
źródło
Odpowiedzi:
Dwustronne testy testowe dla różnicy w obu kierunkach. Zatem wartość P byłaby obszarem pod rozkładem t na prawo od t = 1,92 PLUS obszarem pod rozkładem na lewo od t = -1,92. To dwa razy więcej pola niż jednostronny test, więc wartość P jest dwa razy większa.
Jeśli użyjesz testu jednostronnego, zyskasz moc, ale potencjalnym kosztem konieczności zignorowania różnicy, która jest w przeciwnym kierunku niż hipoteza przed uzyskaniem danych. Jeśli masz dane przed sformalizowaniem i zarejestrowaniem hipotezy, naprawdę powinieneś zastosować test dwustronny. Podobnie, jeśli byłbyś zainteresowany efektem w obu kierunkach, użyj testu dwustronnego. W rzeczywistości możesz zastosować test dwustronny jako podejście domyślne i zastosować test jednostronny tylko w nietypowym przypadku, w którym efekt może istnieć tylko w jednym kierunku.
źródło
Pole pod krzywą nie jest dwukrotnie większe dla testu dwustronnego: W przypadku testu dwustronnego z krytycznym p = 0,05 testujesz, jak często obserwowane dane mogą być rysowane z dolnej lub górnej 2,5% rozkładu zerowego ( W sumie 0,05). Za pomocą testu 1-ogonowego testujesz, jak często dane pochodzą z ekstremalnego 5% ogona jednego (wcześniej określonego) ogona.
Częściowo odpowiedzią na twoje pytanie jest praktyka: większość badaczy uważa eksperymenty raportujące jednostronne testy za mało prawdopodobne do powtórzenia (tj. Zakładają, że badacz wybrał to, aby ich statystyki były „znaczące”).
Istnieją jednak ważne przypadki użycia. Jeśli wiesz, że jakikolwiek wynik w odwrotnym kierunku jest niemożliwy zgodnie z testowaną teorią, to, jak zauważono w poprzednim komentarzu, możesz to określić z wyprzedzeniem i przeprowadzić test jednostronny. Większość ludzi, znowu, postrzegałaby to ostrożnie.
źródło
To prowadzi do pytania: po co używać różnych statystyk testowych? Powodem jest to, że alternatywy są różne, a zatem siła każdej statystyki testowej jest inna. W szczególności moc każdego testu jest zmniejszona (pod warunkiem, że używamy tego samego znaczenia), jeśli użyjemy statystyki testu i regionu odrzucenia z drugiego testu.
źródło