Dlaczego niższe wartości p nie stanowią więcej dowodów przeciwko zeru? Argumenty z Johansson 2011

31

Johansson (2011) w „ Zdrowaś niemożliwe: wartości p, dowody i prawdopodobieństwo ” (tutaj również link do czasopisma ) stwierdza, że ​​niższe wartości są często uważane za silniejsze dowody przeciw zerowej wartości. Johansson sugeruje, że ludzie uznaliby dowody przeciwko wartości zerowej za silniejsze, gdyby ich test statystyczny dał wartość , niż gdyby ich test statystyczny dał wartość . Johansson wymienia cztery powody, dla których wartość nie może być użyta jako dowód przeciwko wartości zerowej:p 0,01 p 0,45 ppp0.01p0.45p

  1. p jest równomiernie rozmieszczony w oparciu o hipotezę zerową i dlatego nigdy nie może wskazywać dowodów na wartość zerową.
  2. p jest uwarunkowane wyłącznie hipotezą zerową i dlatego nie nadaje się do oceny ilościowej dowodów, ponieważ dowody są zawsze względne w sensie bycia dowodami za lub przeciw hipotezie w stosunku do innej hipotezy.
  3. p oznacza raczej prawdopodobieństwo uzyskania dowodów (biorąc pod uwagę wartość zerową), a nie siłę dowodów.
  4. p zależy od nieobserwowanych danych i subiektywnych zamiarów, a zatem implikuje, biorąc pod uwagę interpretację dowodową, że siła dowodowa obserwowanych danych zależy od rzeczy, które się nie wydarzyły i subiektywnych intencji.

Niestety nie mogę zrozumieć intuicyjnie artykułu Johanssona. Według mnie wartość wynosząca oznacza, że ​​istnieje mniejsze prawdopodobieństwo, że wartość null jest prawdziwa, niż wartość równa . Dlaczego niższe wartości nie są mocniejszym dowodem na wartość zerową? 0,01 p 0,45 pp0.01p0.45p

luciano
źródło
Cześć, @luciano! Widzę, że nie zaakceptowałeś żadnej odpowiedzi w tym wątku. Jakiej odpowiedzi szukasz? Czy twoje pytanie dotyczy przede wszystkim argumentów Johannsona, czy ogólnie niższych wartości p?
ameba mówi Przywróć Monikę
Chodzi przede wszystkim o ramy dla stałych klientów Fisher vs. Neyman-Pearson. Zobacz więcej w tej odpowiedzi autorstwa @gung .
Firebug

Odpowiedzi:

21

Moja osobista ocena jego argumentów:

  1. Tutaj mówi o użyciu jako dowodu na zero, podczas gdy jego teza mówi, że nie może być użyty jako dowód przeciwko zeru. Myślę więc, że ten argument jest w dużej mierze nieistotny.ppp
  2. Myślę, że to nieporozumienie. Fisheryjskie testy są ściśle zgodne z ideą Popper's Critical Rationalism, która stwierdza, że ​​nie można poprzeć teorii, a jedynie ją krytykować. W tym sensie istnieje tylko jedna hipoteza (zerowa) i po prostu sprawdzasz, czy twoje dane są z nią zgodne.p
  3. Nie zgadzam się tutaj. Zależy to od statystyki testu, ale jest zwykle transformacją wielkości efektu, która przemawia przeciwko zeru. Im wyższy efekt, tym niższa wartość p --- wszystkie inne rzeczy są równe. Oczywiście w przypadku różnych zestawów danych lub hipotez nie jest to już ważne. p
  4. Nie jestem pewien, że całkowicie rozumiem to stwierdzenie, ale z tego co mogę zebrać ten jest mniejszy problem jako osób korzystających go niesłusznie. miał mieć interpretację częstotliwości w długim okresie i jest to cecha, a nie błąd. Ale nie można winić za osoby przyjmujące jedną wartość jako dowód na hipotezę lub publikujące tylko . p p p p < 0,05ppppp<.05

Jego sugestia wykorzystania wskaźnika prawdopodobieństwa jako miary dowodu jest, moim zdaniem, dobra (ale tutaj idea czynnika Bayesa jest bardziej ogólna), ale w kontekście, w którym go podaje, jest nieco osobliwa: po pierwsze odchodzi podstawy testów rybackich, w których nie ma alternatywnej hipotezy do obliczenia współczynnika wiarygodności. Ale jako dowód przeciwko zeru to Fisherian. Dlatego wprawia w zakłopotanie Fishera i Neymana-Pearsona. Po drugie, większość wykorzystywanych przez nas statystyk testowych to (funkcje) ilorazu prawdopodobieństwa, aw tym przypadku jest transformacją ilorazu prawdopodobieństwa. Jak ujął to Cosma Shalizi :ppp

spośród wszystkich testów o danym rozmiarze ten o najmniejszym prawdopodobieństwie spóźnienia lub największej mocy ma postać „powiedz„ sygnał ”, jeśli , w przeciwnym razie powiedz„ szum ” , ”oraz że próg zmienia się odwrotnie względem . Ilość jest ilorazem prawdopodobieństwa; lemat Neymana-Pearsona mówi, że aby zmaksymalizować moc, powinniśmy powiedzieć „sygnał”, jeśli jest bardziej prawdopodobne niż hałas.q ( x ) / p ( x ) > t ( s ) t s q ( x ) / p ( x )sq(x)/p(x)>t(s)tsq(x)/p(x)

Tutaj oznacza gęstość w stanie „sygnał”, a gęstość w stanie „szum”. Miarą „wystarczająco prawdopodobnego” byłoby tutaj które jest . Zauważ, że w prawidłowym teście Neymana-Pearsona jest zastąpione stałym tak że . p ( x ) P ( q ( X ) / p ( x ) > t o b sH 0 ) p t o b s t ( s ) P ( q ( X ) / p ( x ) > t ( s ) H 0 ) = αq(x)p(x)P(q(X)/p(x)>tobsH0)ptobst(s)P(q(X)/p(x)>t(s)H0)=α

Momo
źródło
6
+1 za sam punkt 3. Cox opisuje wartość p jako kalibrację współczynnika prawdopodobieństwa (lub innej statystyki testowej) i jest to punkt widzenia, o którym często się zapomina.
Scortchi - Przywróć Monikę
(+1) Dobra odpowiedź, @Momo. Zastanawiam się, czy można to poprawić, dodając coś w stylu „Ale są!” dużą czcionką jako nagłówkiem odpowiedzi, ponieważ wydaje się, że jest to odpowiedź na pytanie tytułowe OP „Dlaczego niższe wartości p nie są więcej dowodami przeciwko zeru?”. Obalasz wszystkie podane argumenty, ale nie podajesz wprost odpowiedzi na pytanie tytułowe.
ameba mówi Przywróć Monikę
1
Byłbym trochę niezdecydowany, aby to zrobić, wszystko to jest bardzo subtelne i bardzo zależne od założeń, kontekstów itp. Na przykład możesz całkowicie zaprzeczyć, że twierdzenia probabilistyczne mogą być użyte jako „dowód”, a zatem stwierdzenie jest poprawne. Z fisheryjskiego punktu widzenia tak nie jest. Nie powiedziałbym też, że obalam (wszystkie) argumenty, myślę, że przedstawiam tylko inną perspektywę i wskazuję na pewne logiczne wady w tym argumencie. Autor dobrze argumentuje i stara się znaleźć rozwiązanie dla odpowiedniego podejścia, które samo w sobie może być postrzegane jako równie problematyczne.
Momo
9

Powód, dla którego argumenty takie jak Johanssona są przetwarzane tak często, wydaje się być związany z faktem, że wartości P są wskaźnikami dowodów przeciwko zeru, ale nie są miarami dowodów. Dowody mają więcej wymiarów niż jakakolwiek pojedyncza liczba może zmierzyć, dlatego zawsze istnieją aspekty relacji między wartościami P a dowodami, które ludzie mogą uznać za trudne.

Przejrzałem wiele argumentów użytych przez Johanssona w artykule, który pokazuje związek między wartościami P a funkcjami wiarygodności, a tym samym dowodami: http://arxiv.org/abs/1311.0081 Niestety ten artykuł został trzykrotnie odrzucony, chociaż jego argumenty i dowody na nie nie zostały obalone. (Wygląda na to, że to niesmaczne dla sędziów, którzy mają opinie podobne do Johanssona, a nie złe).

Michael Lew
źródło
+1 @Michael Lew, co powiesz na zmianę tytułu? Dla P (ee) czy nie dla P (ee) ... nie brzmi jak dylemat. Wszyscy wiemy, co robić w tej sytuacji. = D Żartując na bok, jakie były powody, dla których twój artykuł został odrzucony?
Stary człowiek na morzu.
4

Dodając do ładnej odpowiedzi @ Momo:

Nie zapomnij o wielości. Biorąc pod uwagę wiele niezależnych wartości p i rzadkie nietrywialne rozmiary efektów, najmniejsze wartości p pochodzą od zera, z prawdopodobieństwem zmierzającym do wraz ze wzrostem liczby hipotez. Więc jeśli powiesz mi, że masz małą wartość p, pierwszą rzeczą, którą chcę wiedzieć, jest liczba hipotez, które testujesz.1

JohnRos
źródło
2
Warto zauważyć, że mnogość testów nie wpływa na same dowody, nawet jeśli twoja odpowiedź na te dowody może ulec zmianie. Dowody w danych są dowodami w danych i nie mają na nie wpływu żadne obliczenia, które można wykonać na komputerze. Typowa „korekta” wartości p dla wielu testów dotyczy zachowania fałszywie dodatnich poziomów błędów, a nie korygowania związku między wartością p a dowodami eksperymentalnymi.
Michael Lew
1

Czy Johansson mówi o wartościach p z dwóch różnych eksperymentów? Jeśli tak, porównanie wartości p może być jak porównanie jabłek z kotletami jagnięcymi. Jeśli eksperyment „A” obejmuje ogromną liczbę próbek, nawet niewielka nieistotna różnica może być statystycznie znacząca. Jeśli eksperyment „B” obejmuje tylko kilka próbek, ważna różnica może być statystycznie nieistotna. Co gorsza (dlatego powiedziałem kotlety jagnięce, a nie pomarańcze), łuski mogą być całkowicie nieporównywalne (psi w jednym, a kwh w drugim).

Emil Friedman
źródło
3
Mam wrażenie, że Johansson nie mówi o porównywaniu wartości p z różnych eksperymentów. Czy w świetle tego komentarza & @ Glen_b nie miałbyś nic przeciwko wyjaśnieniu swojego postu, Emil? Dobrze jest poruszyć pokrewną kwestię („Myślę, że J myli się w kontekście A, ale miałoby to jakąś wartość w kontekście B”), ale musi być jasne, że to właśnie robisz. Jeśli zadaje pytanie lub komentowania, proszę usunąć ten post i sprawiają, że komentarz.
gung - Przywróć Monikę