Ostatnio dużo czytałem o różnicach między metodą testowania hipotez Fishera a szkołą myślenia Neymana-Pearsona.
Moje pytanie brzmi, ignorując na chwilę obiekcje filozoficzne; kiedy powinniśmy zastosować podejście Fishera do modelowania statystycznego, a kiedy należy zastosować metodę poziomów istotności i tak dalej Neymana-Pearsona? Czy istnieje praktyczny sposób decydowania, który punkt widzenia poprzeć w danym problemie praktycznym?
Odpowiedzi:
Fisher pomyślał, że wartość p można interpretować jako ciągłą miarę dowodów przeciwko hipotezie zerowej . Nie ma określonej stałej wartości, przy której wyniki stałyby się „znaczące”. Sposób, w jaki zwykle staram się przekazać to ludziom, polega na wskazaniu, że dla wszystkich intencji i celów p = 0,049 ip = 0,051 stanowią identyczną ilość dowodów przeciwko hipotezie zerowej (por. Odpowiedź Henrika tutaj ) .
Z drugiej strony, Neyman i Pearson uważali, że można wykorzystać wartość p jako część sformalizowanego procesu decyzyjnego . Pod koniec dochodzenia musisz albo odrzucić hipotezę zerową, albo nie odrzucić hipotezy zerowej. Ponadto hipoteza zerowa może być prawdziwa lub nieprawdziwa. Istnieją więc cztery teoretyczne możliwości (chociaż w każdej sytuacji są tylko dwie): możesz podjąć właściwą decyzję (nie odrzucić prawdziwej - lub odrzucić fałszywą - zerową hipotezę) lub możesz stworzyć typ Błąd I lub typu II (odpowiednio przez odrzucenie prawdziwej wartości zerowej lub odrzucenie fałszywej hipotezy zerowej). (Zauważ, że wartość p nie jest tym samym, co współczynnik błędu typu I, o którym tu mówięα p < α
Podejścia Fisherian i Neyman-Pearson nie są takie same . Głównym założeniem frameworka Neymana-Pearsona jest to, że pod koniec studiów musisz podjąć decyzję i odejść. Podobno badacz zwrócił się kiedyś do Fishera z „nieistotnymi” wynikami, pytając go, co powinien zrobić, a Fisher powiedział „idź zdobyć więcej danych”.
Osobiście uważam, że elegancka logika podejścia Neymana-Pearsona jest bardzo atrakcyjna. Ale nie sądzę, że zawsze jest to właściwe. Moim zdaniem, należy wziąć pod uwagę co najmniej dwa warunki, aby rozważyć ramy Neymana-Pearsona:
Gdy te warunki nie są spełnione, wartość p można nadal interpretować zgodnie z pomysłami Fishera. Co więcej, wydaje mi się prawdopodobne, że przez większość czasu te warunki nie są spełnione. Oto kilka prostych przykładów, które przychodzą na myśl, w których przeprowadzane są testy, ale powyższe warunki nie są spełnione:
źródło
Praktyczność leży w oku patrzącego, ale;
Testy znaczenia Fishera można interpretować jako sposób decydowania, czy dane sugerują jakiś interesujący „sygnał”. Albo odrzucamy hipotezę zerową (która może być błędem typu I), albo w ogóle nic nie mówimy. Na przykład w wielu nowoczesnych aplikacjach „omicznych” ta interpretacja pasuje; nie chcemy popełniać zbyt wielu błędów typu I, chcemy wyciągnąć najbardziej ekscytujące sygnały, choć niektóre z nich możemy przegapić.
Hipoteza Neymana-Pearsona ma sens, gdy istnieją dwie rozłączne alternatywy (np. Bozon Higgsa istnieje lub nie istnieje), między którymi się decydujemy. Oprócz ryzyka błędu typu I, tutaj możemy również popełnić błąd typu II - gdy jest prawdziwy sygnał, ale mówimy, że go nie ma, podejmując decyzję „zerową”. Argumentem NP było to, że nie robiąc zbyt wielu poziomów błędów typu I, chcemy zminimalizować ryzyko błędów typu II.
Często żaden system nie wydaje się idealny - na przykład możesz po prostu oszacować punkt i odpowiadającą mi miarę niepewności. Ponadto, może nie ma znaczenia, którą wersję Państwo używać, ponieważ zgłosić wartość p i pozostawić interpretację testową do czytnika. Aby jednak wybrać jedną z powyższych metod, należy ustalić, czy błędy typu II są istotne dla aplikacji.
źródło
Chodzi o to, że nie można ignorować różnic filozoficznych. Matematyczna procedura w statystyce nie jest samodzielna jako coś, co stosuje się bez pewnych hipotez, założeń, teorii ... filozofii.
To powiedziawszy, jeśli nalegasz, aby trzymać się filozofii częstych, może być kilka bardzo specyficznych problemów, w których Neyman-Pearson naprawdę powinien zostać wzięty pod uwagę. Wszyscy należeli do klasy powtarzanych testów, takich jak kontrola jakości lub fMRI. Wcześniejsze ustalenie konkretnej alfa i uwzględnienie całego szkieletu typu I, typu II i szkieletu zasilania staje się ważniejsze.
źródło
Rozumiem: wartość p oznacza powiedzenie nam, w co wierzymy (weryfikacja teorii przy użyciu wystarczających danych), podczas gdy podejście Neymana-Pearsona polega na powiedzeniu nam, co mamy robić (podejmowanie najlepszych możliwych decyzji, nawet przy ograniczonych danych). Wydaje mi się więc, że (mała) wartość p jest bardziej rygorystyczna, podczas gdy podejście Neymana-Pearsona jest bardziej pragmatyczne; Prawdopodobnie dlatego wartość p jest częściej używana w odpowiedzi na pytania naukowe, podczas gdy Neyman i Pearson są częściej wykorzystywani w podejmowaniu statystycznych / praktycznych decyzji.
źródło