Czy dokładna wartość „wartości p” nie ma znaczenia?

31

W 2009 r. Rozmawiałem ze statystykiem, w którym stwierdził, że dokładna wartość wartości p jest nieistotna: jedyne, co jest ważne, to, czy jest ona znacząca, czy nie. Tj. Jeden wynik nie może być ważniejszy od drugiego; na przykład twoje próbki pochodzą z tej samej populacji lub nie.

Mam z tym pewne skrupuły, ale być może rozumiem ideologię:

  1. Próg 5% jest arbitralny, tzn. Że p = 0,051 nie jest znaczący i że p = 0,049 jest, nie powinien tak naprawdę zmieniać wniosków z obserwacji lub eksperymentu, mimo że jeden wynik jest znaczący, a drugi nieistotny.

    Powodem, dla którego teraz o tym mówię, jest to, że studiuję na tytuł magistra w dziedzinie bioinformatyki, a po rozmowach z ludźmi w tej dziedzinie wydaje się, że istnieje zdecydowany zamiar uzyskania dokładnej wartości p dla każdego zestawu statystyk, które wykonują. Na przykład, jeśli „osiągną” wartość p wynoszącą p <1,9 × 10–12 , chcą wykazać, JAK znaczący jest ich wynik, a wynik ten jest SUPER informacyjny. Ten problem jest ilustrowany pytaniami takimi jak: Dlaczego nie mogę uzyskać wartości p mniejszej niż 2,2e-16? , w którym chcą zapisać wartość wskazującą, że sam przypadek byłby WIELKIE mniej niż 1 na bilion. Ale widzę niewielką różnicę w wykazaniu, że ten wynik wystąpiłby mniej niż 1 na bilion, w przeciwieństwie do 1 na miliard.

  2. Mogę docenić, że p <0,01 pokazuje, że istnieje mniej niż 1% szansa, że ​​tak się stanie, podczas gdy p <0,001 wskazuje, że taki wynik jest jeszcze bardziej mało prawdopodobny niż wspomniana wartość p, ale gdyby wyciągnięte wnioski były całkowicie różne? W końcu oba są znaczącymi wartościami p. Jedynym sposobem, w jaki mogę sobie wyobrazić rejestrację dokładnej wartości p, jest korekcja Bonferroniego, w której próg zmienia się w zależności od liczby dokonanych porównań, zmniejszając w ten sposób błąd typu I. Ale nawet dlaczego miałbyś chcieć pokazać wartość p, która jest o 12 rzędów wielkości mniejsza niż twoje znaczenie progowe?

  3. I czy stosowanie korekty Bonferroniego nie jest samo w sobie nieco arbitralne? W tym sensie, że początkowo korekta jest postrzegana jako bardzo konserwatywna, a zatem istnieją inne poprawki, które można wybrać, aby uzyskać dostęp do poziomu istotności, który obserwator mógłby wykorzystać do ich wielokrotnych porównań. Ale z tego powodu nie jest moment, w którym coś staje się znaczące, zasadniczo zmienne, w zależności od tego, jakich statystyk chce użyć badacz. Czy statystyki powinny być tak otwarte na interpretację?

Podsumowując, czy statystyki nie powinny być mniej subiektywne (chociaż, jak sądzę, potrzeba subiektywności wynika z systemu wielowymiarowego), ale ostatecznie chcę wyjaśnienia: czy coś może być bardziej znaczące niż coś innego? I czy p <0,001 wystarczy w przypadku próby zarejestrowania dokładnej wartości p?

Mark Ramotowski
źródło
6
To dość interesujące: stat.washington.edu/peter/342/nuzzo.pdf
Dan.
4
Luźno powiązane: W mojej odpowiedzi na pytanie Kiedy używać frameworka Fishera i Neymana-Pearsona , twierdzę, że dla każdego frameworu jest pewna rola. Utrzymując w / moje stanowisko w tym miejscu, powiedziałbym, że dokładne wartości p nie miałyby znaczenia w / w ramce NP, ale mogą w / w ramce Fisherian (w zakresie, w jakim liczba zgłoszonych cyfr jest faktycznie wiarygodna).
Gung - Przywróć Monikę
To zadziwiające, jak bardzo niektórzy statystycy chcą utrzymać koncepcję wartości p, gdy jest to zwykle właściwa odpowiedź na złe pytanie. Załóżmy, że wartości p nie zostały zaimplementowane w żadnym pakiecie oprogramowania statystycznego. Wątpię, aby ludzie napisali własny kod, aby go zdobyć.
probabilityislogic
3
@probabilityislogic - po wycięciu moich statystycznych zębów podczas testów permutacyjnych wartości p są bardzo naturalnym sposobem myślenia w takim przypadku, więc mógłbym po prostu napisać własny kod, aby je uzyskać, gdyby nie były ... i w rzeczywistości w bardzo rzadkich przypadkach, gdy w ogóle przeprowadzam testy, zwykle dotyczą one nietypowej sytuacji wymagającej symulacji lub jakiejś formy ponownego próbkowania, zauważyłem, że faktycznie to robię. Zamiast tego chciałbym powiedzieć, że testy hipotez zwykle odpowiadają na złe pytanie. W rzadkich przypadkach, kiedy to robią, myślę, że mają wartość (zwłaszcza inni ludzie nie są związani moim poziomem istotności).
Glen_b
@glen_b - mój problem z wartościami p polega na tym, że nie dostarczają „odpowiedzi” na każdy test hipotez, ponieważ ignorują alternatywy. Jeśli jesteś ograniczony tylko do jednej liczby, wówczas wartość prawdopodobieństwa dla danych jest znacznie lepszą statystyką niż wartość p (a także masz takie same problemy jak p). W ten sposób ludzie nie są związani twoim wyborem statystyki testowej (oprócz tego, że nie są związani twoim progiem istotności).
Prawdopodobieństwo

Odpowiedzi:

24
  1. α=.05α=.051p

    p.05ppfail toreject

  2. ppp

    p

  3. α

    p

fail torejectp-wartości zgłaszane? (i dlaczego R stawia minimum na 2.22e-16?) ”- to znacznie lepsze niż odpowiedzi na wersję tego pytania, które podłączyłeś w Stack Overflow!

Referencje
- Johnson, VE (2013). Zmienione standardy dla dowodów statystycznych. Postępowania z National Academy of Sciences, 110 (48), 19313–19317. Źródło: http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). Do P lub nie do P: O dowodowym charakterze wartości P i ich miejscu w wnioskach naukowych. arXiv: 1311.0081 [stat.ME]. Źródło: http://arxiv.org/abs/1311.0081 .

Nick Stauner
źródło
3
+1, wiele dobrych myśli tutaj. 1 spór, re nr 1, powiedziałbym, że często powinniśmy mieć niższe standardy (tj. Wyższe wartości p) jako preferowane. Często trudno jest uzyskać wystarczającą ilość danych, aby mieć dobrą moc do badania czegoś. Przeprowadziłem szereg analiz mocy dla lekarzy, którzy chcą badać rzadki stan. Mówią: „to jest naprawdę zaniżone, mam pomysł na nowe podejście, prawdopodobnie możemy uzyskać 50 pacjentów w tym w ciągu najbliższych dwóch lat”, i mówię „twoja moc wyniesie 45%”, a projekt jest opuszczony. Rzadkie choroby będą nadal analizowane, jeśli p musi wynosić 0,05 lub mniej.
gung - Przywróć Monikę
2
@gung: Zgadzam się całkowicie. Cytowałem Johnsona (2013) tylko dlatego, że byłem świadomy jego argumentu, a nie dlatego, że się z nim zgadzam :) IMO, mając jeden konwencjonalny standard, który jest nieelastyczny i niewrażliwy na opisywane przez ciebie obawy (które odzwierciedlają mój punkt w drugim akapicie mojego odpowiedź na # 3) jest jednym z podstawowych problemów, a dostosowanie go w górę lub w dół nie rozwiąże go. Kiedy nie ma potrzeby podjęcia trudnej fail to/ szybkiej rejectdecyzji / , myślę, że o wiele lepiej jest ocenić, jak cenny jest dowód w oparciu o znacznie więcej niż prawdopodobieństwo próby z zerową wartością.
Nick Stauner
4
Doskonała dyskusja. Ciekawym artykułem o pewnym znaczeniu jest Gelman i Sterna Różnica między „znaczącym” a „nieistotnym” sama w sobie nie jest statystycznie znacząca (później opublikowana w American Statistician, 2006), co nie powiedziałbym, że charakteryzuje wartość p jako koniecznie bez znaczenia, ale stanowiłoby ostrą nutę ostrożności w odniesieniu do kładzenia dużego nacisku na porównywanie wartości p (powiedzmy, zamiast szacunkowych efektów). Gelman często omawiał związane z tym kwestie na swoim blogu.
Glen_b
2
ppp
2
Wygląda na to, że Gelman udostępnia również link do pdf opublikowanego artykułu na swojej stronie.
Glen_b
13

Wydaje mi się, że jeśli wartość jest znacząca, jej dokładna wartość jest znacząca.

Wartość p odpowiada na to pytanie:

Jeśli w populacji, z której losowo wybrano tę próbkę, hipoteza zerowa była prawdziwa, jakie jest prawdopodobieństwo uzyskania statystyki testowej co najmniej tak ekstremalnej jak ta, którą otrzymaliśmy w próbie?

Co z tą definicją sprawia, że ​​dokładna wartość nie ma znaczenia?

To jest inne pytanie niż ekstremalne wartości p. Problem z instrukcjami obejmującymi p z wieloma zerami dotyczy tego, jak dobrze możemy oszacować p w skrajnościach. Ponieważ nie możemy tego zrobić zbyt dobrze, nie ma sensu stosowanie tak dokładnych oszacowań p. Z tego samego powodu nie mówimy, że p = 0,0319281010012981. Nie znamy tych ostatnich cyfr z pewnością.

Czy nasze wnioski powinny być inne, jeśli p <0,001 zamiast p <0,05? Lub, używając precyzyjnych liczb, czy nasze wnioski powinny być inne, jeśli p = 0,00023 zamiast p = 0,035?

Myślę, że problem polega na tym, jak zwykle wyciągamy wnioski na temat p. Mówimy „znaczący” lub „nieistotny” na podstawie dowolnego arbitralnego poziomu. Jeśli zastosujemy te arbitralne poziomy, wówczas tak, nasze wnioski będą inne. Ale nie tak powinniśmy myśleć o tych rzeczach. Powinniśmy spojrzeć na wagę dowodów, a testy statystyczne są tylko częścią tych dowodów. Ponownie podłączę „kryteria MAGIC” Roberta Abelsona:

Wielkość - jak duży jest efekt?

Artykulacja - jak dokładnie to jest powiedziane? Czy istnieje wiele wyjątków?

Ogólność - do jakiej grupy to dotyczy?

Ciekawość - czy ludziom to zależy?

Wiarygodność - czy ma to sens?

Liczy się połączenie tych wszystkich. Zauważ, że Abelson w ogóle nie wspomina o wartościach p, chociaż są one rodzajem hybrydy wielkości i artykulacji.

Peter Flom - Przywróć Monikę
źródło
5
Często nie mówimy tego, ale technicznie wartość p odzwierciedla tylko coś o „prawdopodobieństwie otrzymania statystyki testowej co najmniej tak ekstremalnej jak ta, którą dostaliśmy w próbie”, jeśli hipoteza zerowa jest prawdziwa, nasza próbka szacuje wariancji populacji jest całkowicie dokładne i spełniamy wszystkie pozostałe założenia naszego testu. Rzuć pewne przedziały ufności wokół niektórych wartości p za pomocą ładowania początkowego i myślę, że zobaczysz, że często nie jesteśmy tak pewni co do setnego miejsca.
russellpierce
2
Krótko mówiąc, jest to tak skomplikowany kontrfakt, że próba kwantyfikacji wartości p jest nieproduktywna, kiedy naprawdę (jak sugerujesz) powinniśmy wrócić do MAGIC.
russellpierce
Muszę przyznać, że nie myślałem o umieszczeniu przedziałów ufności (lub przedziałów wiarygodności) wokół wartości p. Zastanawiam się, ile zrobiono w tej dziedzinie?
Peter Flom - Przywróć Monikę
2
Nie mam pod ręką cytatu, ale wiem, że istnieje praca zgodna z tymi wytycznymi - niezależnie od tego, jest to akademicka rzecz do zrobienia, ponieważ można tworzyć przedziały ufności przedziałów ufności przedziałów ufności prawie ad infinitum (istnieje maksimum wariancja, którą można rozsądnie oszacować na podstawie dowolnego zestawu danych). Dawno, dawno temu przeprowadziłem dość długą i szczegółową rozmowę w tym samym czasie z @Nick Stauner. Może nadal ma jakieś artykuły, które wykopał podczas tej rozmowy, aby przynieść do stołu.
russellpierce
1
Nic o przedziałach ufności dla wartości p , które pamiętam, ale mogłem przejrzeć te sekcje. Nie chciałem też robić przedziałów ufności dla wartości p ;)
Nick Stauner