W 2009 r. Rozmawiałem ze statystykiem, w którym stwierdził, że dokładna wartość wartości p jest nieistotna: jedyne, co jest ważne, to, czy jest ona znacząca, czy nie. Tj. Jeden wynik nie może być ważniejszy od drugiego; na przykład twoje próbki pochodzą z tej samej populacji lub nie.
Mam z tym pewne skrupuły, ale być może rozumiem ideologię:
Próg 5% jest arbitralny, tzn. Że p = 0,051 nie jest znaczący i że p = 0,049 jest, nie powinien tak naprawdę zmieniać wniosków z obserwacji lub eksperymentu, mimo że jeden wynik jest znaczący, a drugi nieistotny.
Powodem, dla którego teraz o tym mówię, jest to, że studiuję na tytuł magistra w dziedzinie bioinformatyki, a po rozmowach z ludźmi w tej dziedzinie wydaje się, że istnieje zdecydowany zamiar uzyskania dokładnej wartości p dla każdego zestawu statystyk, które wykonują. Na przykład, jeśli „osiągną” wartość p wynoszącą p <1,9 × 10–12 , chcą wykazać, JAK znaczący jest ich wynik, a wynik ten jest SUPER informacyjny. Ten problem jest ilustrowany pytaniami takimi jak: Dlaczego nie mogę uzyskać wartości p mniejszej niż 2,2e-16? , w którym chcą zapisać wartość wskazującą, że sam przypadek byłby WIELKIE mniej niż 1 na bilion. Ale widzę niewielką różnicę w wykazaniu, że ten wynik wystąpiłby mniej niż 1 na bilion, w przeciwieństwie do 1 na miliard.
Mogę docenić, że p <0,01 pokazuje, że istnieje mniej niż 1% szansa, że tak się stanie, podczas gdy p <0,001 wskazuje, że taki wynik jest jeszcze bardziej mało prawdopodobny niż wspomniana wartość p, ale gdyby wyciągnięte wnioski były całkowicie różne? W końcu oba są znaczącymi wartościami p. Jedynym sposobem, w jaki mogę sobie wyobrazić rejestrację dokładnej wartości p, jest korekcja Bonferroniego, w której próg zmienia się w zależności od liczby dokonanych porównań, zmniejszając w ten sposób błąd typu I. Ale nawet dlaczego miałbyś chcieć pokazać wartość p, która jest o 12 rzędów wielkości mniejsza niż twoje znaczenie progowe?
I czy stosowanie korekty Bonferroniego nie jest samo w sobie nieco arbitralne? W tym sensie, że początkowo korekta jest postrzegana jako bardzo konserwatywna, a zatem istnieją inne poprawki, które można wybrać, aby uzyskać dostęp do poziomu istotności, który obserwator mógłby wykorzystać do ich wielokrotnych porównań. Ale z tego powodu nie jest moment, w którym coś staje się znaczące, zasadniczo zmienne, w zależności od tego, jakich statystyk chce użyć badacz. Czy statystyki powinny być tak otwarte na interpretację?
Podsumowując, czy statystyki nie powinny być mniej subiektywne (chociaż, jak sądzę, potrzeba subiektywności wynika z systemu wielowymiarowego), ale ostatecznie chcę wyjaśnienia: czy coś może być bardziej znaczące niż coś innego? I czy p <0,001 wystarczy w przypadku próby zarejestrowania dokładnej wartości p?
źródło
Odpowiedzi:
fail to
reject
fail to
reject
Referencje
- Johnson, VE (2013). Zmienione standardy dla dowodów statystycznych. Postępowania z National Academy of Sciences, 110 (48), 19313–19317. Źródło: http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). Do P lub nie do P: O dowodowym charakterze wartości P i ich miejscu w wnioskach naukowych. arXiv: 1311.0081 [stat.ME]. Źródło: http://arxiv.org/abs/1311.0081 .
źródło
fail to
/ szybkiejreject
decyzji / , myślę, że o wiele lepiej jest ocenić, jak cenny jest dowód w oparciu o znacznie więcej niż prawdopodobieństwo próby z zerową wartością.Wydaje mi się, że jeśli wartość jest znacząca, jej dokładna wartość jest znacząca.
Wartość p odpowiada na to pytanie:
Co z tą definicją sprawia, że dokładna wartość nie ma znaczenia?
To jest inne pytanie niż ekstremalne wartości p. Problem z instrukcjami obejmującymi p z wieloma zerami dotyczy tego, jak dobrze możemy oszacować p w skrajnościach. Ponieważ nie możemy tego zrobić zbyt dobrze, nie ma sensu stosowanie tak dokładnych oszacowań p. Z tego samego powodu nie mówimy, że p = 0,0319281010012981. Nie znamy tych ostatnich cyfr z pewnością.
Czy nasze wnioski powinny być inne, jeśli p <0,001 zamiast p <0,05? Lub, używając precyzyjnych liczb, czy nasze wnioski powinny być inne, jeśli p = 0,00023 zamiast p = 0,035?
Myślę, że problem polega na tym, jak zwykle wyciągamy wnioski na temat p. Mówimy „znaczący” lub „nieistotny” na podstawie dowolnego arbitralnego poziomu. Jeśli zastosujemy te arbitralne poziomy, wówczas tak, nasze wnioski będą inne. Ale nie tak powinniśmy myśleć o tych rzeczach. Powinniśmy spojrzeć na wagę dowodów, a testy statystyczne są tylko częścią tych dowodów. Ponownie podłączę „kryteria MAGIC” Roberta Abelsona:
Wielkość - jak duży jest efekt?
Artykulacja - jak dokładnie to jest powiedziane? Czy istnieje wiele wyjątków?
Ogólność - do jakiej grupy to dotyczy?
Ciekawość - czy ludziom to zależy?
Wiarygodność - czy ma to sens?
Liczy się połączenie tych wszystkich. Zauważ, że Abelson w ogóle nie wspomina o wartościach p, chociaż są one rodzajem hybrydy wielkości i artykulacji.
źródło