Dlaczego błędy typu II nie są tak podkreślane w literaturze statystycznej?

10

Widziałem wiele przypadków, w których błędy typu I są uwzględniane (oznaczane przez wartość alfa) w różnych artykułach badawczych. Rzadko zdarza mi się, aby badacz wziął pod uwagę moc lub błąd typu II.

Błędy typu II mogą być bardzo ważne, prawda? Przypadkowo odrzuciliśmy alternatywną hipotezę, gdy była ona rzeczywiście fałszywa. Dlaczego wartości alfa są tak bardzo podkreślane zamiast wartości beta?

Kiedy brałem statystyki z pierwszego roku, nigdy nie uczyłem się wersji beta - tylko alfa. Uważam, że te dwa błędy należy traktować jednakowo. Jednak wydaje się, że tylko alfa jest podkreślana.


źródło
1
+1 Powodem jest to, że tradycyjnie błąd typu I (aka, lub poziom istotności ) jest najpierw naprawiany, a następnie test jest konstruowany w taki sposób, aby zminimalizować błąd typu II (równoważnie, aby zmaksymalizować moc) . Pomocnym artykułem na temat wikipedii, aby zrozumieć ten problem, jest ten dotyczący testów Uniformly Najpotężniejszych (UMP), en.wikipedia.org/wiki/Uniformly_most_powerful_testα
Jeremias K
3
Mylisz się co do „zaakceptowaliśmy hipotezę zerową” - nigdy jej nie akceptujemy. Albo „odrzucamy null hyp”, albo „nie odrzucamy null hyp”, ale nigdy nie akceptujemy null hyp!
jaskiniowiec
piaskowane - minęło mnie. Dzięki za zwrócenie na to uwagi.
1
Uważaj, aby nie pomylić własnego doświadczenia z całą dziedziną literatury statystycznej; z trudem można wywnioskować treść materiału, którego nie przeczytałeś.
Glen_b
@glen zaraz. Savy tytuł otrzymuje więcej odpowiedzi.

Odpowiedzi:

5

To dobre pytanie. Zacznę od kilku wyjaśnień:


Myślę, że masz (niestety) rację, że mniej uwagi poświęca się błędom zasilania i typu II. Chociaż myślę, że sytuacja poprawia się w badaniach biomedycznych (np. Agencje finansujące i IRB często wymagają teraz analiz mocy), myślę, że jest kilka powodów:

  1. Myślę, że moc jest trudniejsza do zrozumienia dla ludzi niż proste znaczenie. (Dzieje się tak po części dlatego, że zależy to od wielu niewiadomych - zwłaszcza od wielkości efektu, ale są też inne).
  2. Większość nauk (tj. Innych niż fizyka i chemia) nie jest dobrze matematycznych. W rezultacie badaczom bardzo trudno jest ustalić, jaki rozmiar efektu „powinien” otrzymać ich teoria (inna niż tylko ). 0
  3. Naukowcy tradycyjnie zakładali, że błędy typu I są gorsze niż błędy typu II.
gung - Przywróć Monikę
źródło
1
Jak zawsze pouczające - szczególnie dla osób niematematycznych :-) ... Uwielbiam to sformułowanie ... Zastanawiam się, czy mógłbyś rozwinąć nieco trzeci punkt ... Czy jest jakaś podstawa do tego nastawienia. Wiem, że to prawda, ale jak myślisz, dlaczego tak jest ... Czy to dlatego, że chodzi o trofeum wartości p i nic innego nie ma znaczenia?
Antoni Parellada
Dzięki, @AntoniParellada. Zastanowię się, co jeszcze mogę dodać.
gung - Przywróć Monikę
2
Chciałbym wyjaśnić punkt 3), dlaczego naukowcy uważają, że błędy typu I są gorsze. Hipoteza zerowa jest zwykle pewnego rodzaju „status quo”, np. Efektem tego zupełnie nowego leku jest 0. Lubimy status quo, a ciężar dowodu spoczywa na badaczu, który udowodni inaczej. Dlatego chcemy ograniczyć błąd typu I, tzn. Niesłusznie odrzucamy status quo. IMO, to przywiązanie do status quo jest po prostu filozoficzne. Jeśli chcesz zmienić moje zdanie, musisz to udowodnić.
Heisenberg,
1
W praktyce można łatwo pomyśleć o przypadkach, w których błąd typu II ma o wiele większe znaczenie, tj. Koszt nie odrzucenia wartości null jest wysoki. Na przykład, jeśli ludzkość stanie w obliczu epidemii zombie, jestem pewien, że postawa brzmiałaby: „wypróbuj dowolny lek, nawet jeśli może on nie działać”, a nie „musisz udowodnić, że działa, zanim go użyjemy”.
Heisenberg,
Dodanie do @Heisenberga: W przypadkach, w których błędy typu II mają największe znaczenie, należy rozważyć przejście między testami hipotezy punktowej a testem równoważności. W twoim przykładzie należałoby udowodnić, że proponowany sos worcester przynajmniej nie pogorszy epidemii zombie. Następnie poziomy błędu zmieniają swoją rolę, a najważniejszy poziom błędu jest ponownie ustalany projektowo. Ponadto, jeśli masz oszacowanie kosztów błędnych decyzji, należy rozważyć zasadę decyzji, która minimalizuje ryzyko i nie (koniecznie) naprawia określony poziom błędu typu I.
Horst Grünbusch,
2

Powodem jest to, że po prostu nie znamy rzeczywistego poziomu błędu typu II i nigdy tego nie zrobimy. To zależy od parametru, którego zwykle nie znamy. Z kolei gdybyśmy znali ten parametr, nie musielibyśmy przeprowadzać testu statystycznego.

Możemy jednak zaplanować eksperyment w taki sposób, aby osiągnąć określony poziom błędu typu II, biorąc pod uwagę, że istnieje jakaś alternatywa. W ten sposób wybralibyśmy wielkość próbki, która nie marnuje zasobów: Albo dlatego, że test nie zostanie ostatecznie odrzucony, albo dlatego, że już znacznie mniejszy rozmiar próbki byłby wystarczający do odrzucenia hipotezy.

Horst Grünbusch
źródło