Johansson (2011) w „ Zdrowaś niemożliwe: wartości p, dowody i prawdopodobieństwo ” (tutaj również link do czasopisma ) stwierdza, że niższe wartości są często uważane za silniejsze dowody przeciw zerowej wartości. Johansson sugeruje, że ludzie uznaliby dowody przeciwko wartości zerowej za silniejsze, gdyby ich test statystyczny dał wartość , niż gdyby ich test statystyczny dał wartość . Johansson wymienia cztery powody, dla których wartość nie może być użyta jako dowód przeciwko wartości zerowej:p 0,01 p 0,45 p
- jest równomiernie rozmieszczony w oparciu o hipotezę zerową i dlatego nigdy nie może wskazywać dowodów na wartość zerową.
- jest uwarunkowane wyłącznie hipotezą zerową i dlatego nie nadaje się do oceny ilościowej dowodów, ponieważ dowody są zawsze względne w sensie bycia dowodami za lub przeciw hipotezie w stosunku do innej hipotezy.
- oznacza raczej prawdopodobieństwo uzyskania dowodów (biorąc pod uwagę wartość zerową), a nie siłę dowodów.
- zależy od nieobserwowanych danych i subiektywnych zamiarów, a zatem implikuje, biorąc pod uwagę interpretację dowodową, że siła dowodowa obserwowanych danych zależy od rzeczy, które się nie wydarzyły i subiektywnych intencji.
Niestety nie mogę zrozumieć intuicyjnie artykułu Johanssona. Według mnie wartość wynosząca oznacza, że istnieje mniejsze prawdopodobieństwo, że wartość null jest prawdziwa, niż wartość równa . Dlaczego niższe wartości nie są mocniejszym dowodem na wartość zerową? 0,01 p 0,45 p
Odpowiedzi:
Moja osobista ocena jego argumentów:
Jego sugestia wykorzystania wskaźnika prawdopodobieństwa jako miary dowodu jest, moim zdaniem, dobra (ale tutaj idea czynnika Bayesa jest bardziej ogólna), ale w kontekście, w którym go podaje, jest nieco osobliwa: po pierwsze odchodzi podstawy testów rybackich, w których nie ma alternatywnej hipotezy do obliczenia współczynnika wiarygodności. Ale jako dowód przeciwko zeru to Fisherian. Dlatego wprawia w zakłopotanie Fishera i Neymana-Pearsona. Po drugie, większość wykorzystywanych przez nas statystyk testowych to (funkcje) ilorazu prawdopodobieństwa, aw tym przypadku jest transformacją ilorazu prawdopodobieństwa. Jak ujął to Cosma Shalizi :pp p
Tutaj oznacza gęstość w stanie „sygnał”, a gęstość w stanie „szum”. Miarą „wystarczająco prawdopodobnego” byłoby tutaj które jest . Zauważ, że w prawidłowym teście Neymana-Pearsona jest zastąpione stałym tak że . p ( x ) P ( q ( X ) / p ( x ) > t o b s ∣ H 0 ) p t o b s t ( s ) P ( q ( X ) / p ( x ) > t ( s ) ∣ H 0 ) = αq(x) p(x) P(q(X)/p(x)>tobs∣H0) p tobs t(s) P(q(X)/p(x)>t(s)∣H0)=α
źródło
Powód, dla którego argumenty takie jak Johanssona są przetwarzane tak często, wydaje się być związany z faktem, że wartości P są wskaźnikami dowodów przeciwko zeru, ale nie są miarami dowodów. Dowody mają więcej wymiarów niż jakakolwiek pojedyncza liczba może zmierzyć, dlatego zawsze istnieją aspekty relacji między wartościami P a dowodami, które ludzie mogą uznać za trudne.
Przejrzałem wiele argumentów użytych przez Johanssona w artykule, który pokazuje związek między wartościami P a funkcjami wiarygodności, a tym samym dowodami: http://arxiv.org/abs/1311.0081 Niestety ten artykuł został trzykrotnie odrzucony, chociaż jego argumenty i dowody na nie nie zostały obalone. (Wygląda na to, że to niesmaczne dla sędziów, którzy mają opinie podobne do Johanssona, a nie złe).
źródło
Dodając do ładnej odpowiedzi @ Momo:
Nie zapomnij o wielości. Biorąc pod uwagę wiele niezależnych wartości p i rzadkie nietrywialne rozmiary efektów, najmniejsze wartości p pochodzą od zera, z prawdopodobieństwem zmierzającym do wraz ze wzrostem liczby hipotez. Więc jeśli powiesz mi, że masz małą wartość p, pierwszą rzeczą, którą chcę wiedzieć, jest liczba hipotez, które testujesz.1
źródło
Czy Johansson mówi o wartościach p z dwóch różnych eksperymentów? Jeśli tak, porównanie wartości p może być jak porównanie jabłek z kotletami jagnięcymi. Jeśli eksperyment „A” obejmuje ogromną liczbę próbek, nawet niewielka nieistotna różnica może być statystycznie znacząca. Jeśli eksperyment „B” obejmuje tylko kilka próbek, ważna różnica może być statystycznie nieistotna. Co gorsza (dlatego powiedziałem kotlety jagnięce, a nie pomarańcze), łuski mogą być całkowicie nieporównywalne (psi w jednym, a kwh w drugim).
źródło