Czy mniejsze wartości p są bardziej przekonujące?

31

Czytałem o wartościach , wskaźnikach błędów typu 1, poziomach istotności, obliczeniach mocy, wielkościach efektów i debacie Fisher vs Neyman-Pearson. To sprawiło, że poczułem się trochę przytłoczony. Przepraszam za ścianę tekstu, ale czułem, że konieczne było przedstawienie mojego obecnego zrozumienia tych pojęć, zanim przejdę do moich faktycznych pytań.p


Z tego, co zebrałem, wartość jest po prostu miarą zaskoczenia, prawdopodobieństwo uzyskania wyniku przynajmniej tak ekstremalne, biorąc pod uwagę, że hipoteza zerowa jest prawdziwa. Fisher początkowo miał to być ciągły środek.p

W strukturze Neyman-Pearson wybierasz z góry poziom istotności i używasz go jako (arbitralnego) punktu odcięcia. Poziom istotności jest równy poziomowi błędu typu 1. Jest to określone przez częstotliwość długiego przebiegu, tj. Jeśli powtórzyłbyś eksperyment 1000 razy, a hipoteza zerowa jest prawdziwa, około 50 z tych eksperymentów dałoby znaczący efekt, ze względu na zmienność próbkowania. Wybierając poziom istotności, z pewnym prawdopodobieństwem chronimy się przed tymi fałszywymi pozytywami. Wartości tradycyjnie nie pojawiają się w tych ramach.P

Jeśli znajdziemy wartość wynoszącą 0,01, nie oznacza to, że współczynnik błędu typu 1 wynosi 0,01, błąd typu 1 jest ustalany z góry. Uważam, że jest to jeden z głównych argumentów w debacie Fisher vs NP, ponieważ wartości p są często zgłaszane jako 0,05 *, 0,01 **, 0,001 ***. Może to wprowadzić w błąd ludzi, którzy twierdzą, że efekt jest znaczący przy określonej wartości p , a nie przy określonej wartości istotności.ppp

Zdaję sobie również sprawę, że wartość jest funkcją wielkości próby. Dlatego nie można go stosować jako pomiaru bezwzględnego. Mała wartość p może wskazywać na niewielki, nieistotny efekt w eksperymencie z dużą próbką. Aby temu przeciwdziałać, ważne jest wykonanie obliczenia wielkości mocy / efektu przy określaniu wielkości próby dla eksperymentu. Wartości P mówią nam, czy jest jakiś efekt, a nie jak duży. Zobacz Sullivan 2012 .ppP

Moje pytanie: Jak mogę pogodzić fakty, że wartość jest miarą zaskoczenia (mniejsza = bardziej przekonująca), a jednocześnie nie może być postrzegana jako miara absolutna?p

Jestem zdezorientowany: czy możemy być bardziej pewni co do małej wartości niż dużej? W sensie fisheryjskim powiedziałbym, że tak, jesteśmy bardziej zaskoczeni. W ramach NP wybranie mniejszego poziomu istotności oznaczałoby, że silniej chronimy się przed fałszywymi pozytywami.p

Ale z drugiej strony wartości zależą od wielkości próby. Nie są absolutną miarą. Dlatego nie możemy po prostu powiedzieć, że 0,001593 jest ważniejszy niż 0,0439. A jednak to, co wynikałoby z ram Fishera: bylibyśmy bardziej zaskoczeni tak ekstremalną wartością. Istnieje nawet dyskusja na temat tego, że termin „ bardzo znaczący” jest mylący: czy błędem jest odnosić się do wyników jako „bardzo znaczących”?p

Słyszałem, że wartości w niektórych dziedzinach nauki są uważane za ważne tylko wtedy, gdy są mniejsze niż 0,0001, podczas gdy w innych dziedzinach wartości około 0,01 są już uważane za bardzo znaczące.p

Powiązane pytania:

Zenit
źródło
Nie zapominaj również, że „znacząca” wartość p nie mówi ci nic o twojej teorii. Potwierdzają to nawet najbardziej zagorzali obrońcy: Precis o znaczeniu statystycznym: uzasadnienie, ważność i użyteczność. Siu L. Chow. NAUKI BEHAWIORALNE I MÓZGOWE (1998) 21, 169–239 Dane są interpretowane, gdy stają się dowodami. Założenia interpretacji oparte na potrzebie wyliczenia, a następnie, jeśli to możliwe, sprawdzenia. Co jest mierzone?
Livid
2
+1, ale zachęcam do skoncentrowania pytania i usunięcia pytań pobocznych. Jeśli jesteś zainteresowany, dlaczego niektórzy twierdzą, że przedziały ufności są lepsze niż wartości p, zadaj osobne pytanie (ale upewnij się, że nie zostało to zadane wcześniej).
ameba mówi Przywróć Monikę
3
Poza tym, dlaczego twoje pytanie nie jest duplikatem Dlaczego niższe wartości p nie stanowią więcej dowodów przeciwko zeru? Widziałeś ten wątek? Być może możesz dodać go do listy na końcu swojego postu. Zobacz także podobne pytanie Jaki sens ma porównywanie ze sobą wartości p? , ale niechętnie polecam ten wątek, ponieważ zaakceptowana odpowiedź jest błędna / wprowadzająca w błąd IMHO (patrz dyskusja w komentarzach).
ameba mówi Przywróć Monikę
2
Gelman ma wiele do powiedzenia na temat wartości p. np. 1. tutaj (Gelman i Stern, Am.Stat. 2006 pdf) , 2. tutaj na swoim blogu , 3. ponownie na swoim blogu i być może również 4. tutaj (Gelman, 2013 opublikował komentarz do innego artykułu, pdf)
Glen_b - Przywróć Monikę
2
Dzięki za linki, @Glen_b; Znam dobrze artykuł Gelmana i Sterna i często sam się do niego odnoszę, ale nigdy nie widziałem tego artykułu z 2013 roku ani jego dyskusji. Chciałbym jednak ostrzec OP przed interpretowaniem Gelmana i Sterna w kontekście jego pytania. G&S stanowi dobry przykład z dwoma badaniami oceniającymi wpływ na i 10 ± 1025±1010±10 ; w jednym przypadku , w innym p > 0,05 , ale różnica między szacunkami nie jest znacząca. Należy o tym pamiętać, ale jeśli teraz, po OP, zapytamy, czy pierwsze badanie jest bardziej przekonujące, z pewnością powiedziałbym, że tak. p<0,01p>0,05
ameba mówi Przywróć Monikę

Odpowiedzi:

18

Czy mniejsze wartości „bardziej przekonujące”? Tak, oczywiście, że są.p

W ramach Fishera wartość jest kwantyfikacją ilości dowodów w stosunku do hipotezy zerowej. Dowody mogą być mniej lub bardziej przekonujące; im mniejsza wartość p , tym bardziej jest przekonująca. Zauważ, że w każdym eksperymencie ze stałą wielkością próbki nppn , -value jest monotonicznie związane z wielkością efektu, jak @Scortchi ładnie podkreśla w swojej odpowiedzi (+1). Tak więc mniejsze wartości p odpowiadają większym rozmiarom efektu; oczywiściepp są bardziej przekonujące!

W ramach Neyman-Pearson celem jest uzyskanie decyzji binarnej: albo dowody są „znaczące”, albo nie. Wybierając próg , gwarantujemy, że nie będziemy mieli więcej niż α wyników fałszywie dodatnich. Pamiętaj, że różne osoby mogą mieć na uwadze różne wartości α , patrząc na te same dane; być może, kiedy czytam artykuł z dziedziny, którą jestem sceptyczny, osobiście nie uważałbym za „znaczące” wyniki przy np. p = 0,03, chociaż autorzy nazywają je znaczącymi. Moje osobiste α może być ustawione na 0,001 lub coś takiego. Oczywiście im niższa zgłoszona strαααp=0.03α0.001p-wartość, tym bardziej sceptyczni czytelnicy będą w stanie przekonać! Dlatego ponownie niższe wartości są bardziej przekonujące.p

Obecnie standardową praktyką jest łączenie podejść Fishera i Neymana-Pearsona: jeśli , to wyniki nazywane są „znaczącymi”, a wartość p jest [dokładnie lub w przybliżeniu] podawana i stosowana jako miara przekonania (poprzez oznaczenie jej z gwiazdami, używając wyrażeń jako „bardzo znaczących” itp.); jeśli p > α , wówczas wyniki nazywane są „nieistotnymi” i to wszystko.p<αpp>α

Jest to zwykle określane jako „podejście hybrydowe” i rzeczywiście jest hybrydowe. Niektórzy twierdzą, że ta hybryda jest niespójna; Nie zgadzam się. Dlaczego wykonywanie dwóch ważnych czynności jednocześnie byłoby nieważne?

Dalsza lektura:

ameba mówi Przywróć Monikę
źródło
1
(+1) Ale patrz sekcja 4.4 artykułu Michaela Lwa: niektórzy woleliby raczej zrównać ilość dowodów z prawdopodobieństwem niż z wartością p, co robi różnicę, gdy porównywane są wartości p z eksperymentów z różnymi przestrzeniami próbkowania. Mówią więc o „indeksowaniu” lub „kalibrowaniu” dowodów / prawdopodobieństwa.
Scortchi - Przywróć Monikę
Przepraszam, chciałem powiedzieć bardziej precyzyjnie, że w tym widoku względnym „dowodem” (lub „wsparciem”) dla różnych wartości, które może przyjąć parametr, jest stosunek ich funkcji prawdopodobieństwa ocenianych dla zaobserwowanych danych. Tak więc w przykładzie Lwa jedna głowa z sześciu rzutów stanowi ten sam dowód przeciwko hipotezie zerowej, niezależnie od tego, czy schemat próbkowania jest dwumianowy czy ujemny dwumianowy; jednak wartości p są różne - można powiedzieć, że w ramach jednego schematu próbkowania rzadziej gromadzono by tyle dowodów przeciwko zeru. (Oczywiście prawa do słowa „dowód”, podobnie jak w przypadku „znaczącego”, ...
Scortchi - Przywróć Monikę
... nie zostały jeszcze ustalone.)
Scortchi - Przywróć Monikę
Hmmm, wielkie dzięki za zwrócenie mojej uwagi na ten rozdział; Przeczytałem go wcześniej, ale najwyraźniej nie doceniłem jego znaczenia. Muszę powiedzieć, że w tej chwili jestem tym zdezorientowany. Lew pisze, że wartości p nie należy „dostosowywać”, biorąc pod uwagę reguły zatrzymania; ale nie widzę żadnych korekt w jego formułach 5-6. Jakie byłyby „nieskorygowane” wartości p?
ameba mówi Przywróć Monikę
1
@Scortchi: Hmmm. Naprawdę nie rozumiem, dlaczego jedna z tych wartości p jest „dostosowywana”, a inna nie; dlaczego nie odwrotnie? Argument Lwa w ogóle mnie nie przekonuje i nawet go w pełni nie rozumiem. Zastanawiając się nad tym, znalazłem pytanie Lwa z 2012 roku dotyczące zasady prawdopodobieństwa i wartości p, i zamieściłem tam odpowiedź. Chodzi o to, że nie trzeba różnych reguł zatrzymywania, aby uzyskać różne wartości p; można po prostu rozważyć różne statystyki testowe. Być może będziemy mogli kontynuować dyskusję, byłbym wdzięczny za twój wkład.
ameba mówi Przywróć Monikę
9

Nie wiem, co oznacza to, że mniejsze wartości p są „lepsze” lub że jesteśmy „bardziej pewni” ich. Jednak uznanie wartości p za miarę tego, jak powinniśmy być zaskoczeni danymi, jeśli uważamy hipotezę zerową, wydaje się wystarczająco rozsądne; wartość p jest monotoniczną funkcją statystyki testowej, którą masz wybranejaby zmierzyć rozbieżność z hipotezą zerową w kierunku, który Cię interesuje, kalibrując ją pod kątem jej właściwości w ramach odpowiedniej procedury pobierania próbek z populacji lub losowego przypisywania eksperymentalnych metod leczenia. „Istotność” stała się terminem technicznym odnoszącym się do wartości p „powyżej albo poniżej pewnej określonej wartości; dlatego nawet ci, którzy nie są zainteresowani określaniem poziomów istotności oraz przyjmowaniem lub odrzucaniem hipotez, mają tendencję do unikania zwrotów takich jak „bardzo znaczący” - zwykłe przestrzeganie konwencji.

Jeśli chodzi o zależność wartości p od wielkości próby i wielkości efektu, może pojawić się pewne zamieszanie, ponieważ np. Mogłoby się wydawać, że 474 główki na 1000 rzutów powinno być mniej zaskakujące niż 2 na 10 dla kogoś, kto uważa, że ​​moneta jest uczciwa - w końcu proporcja próbki tylko nieznacznie odbiega od 50% w pierwszym przypadku - jednak wartości p są prawie takie same. Ale prawda czy fałsz nie przyznają stopni; wartość p robi to, o co ją poproszono: często przedziały ufności dla parametru są naprawdę tym, co chce ocenić, jak dokładnie mierzono efekt, oraz praktyczne lub teoretyczne znaczenie jego oszacowanej wielkości.

Scortchi - Przywróć Monikę
źródło
1
p=0.04p=0.000004
1

Dziękuję za komentarze i sugerowane lektury. Miałem trochę czasu na przemyślenie tego problemu i wydaje mi się, że udało mi się wyodrębnić moje główne źródła zamieszania.

  • Początkowo myślałem, że istnieje dychotomia między postrzeganiem wartości p jako miary zaskoczenia a stwierdzeniem, że nie jest to miara absolutna. Teraz zdaję sobie sprawę, że te stwierdzenia niekoniecznie są ze sobą sprzeczne. To pierwsze pozwala nam być mniej lub bardziej pewnymi co do skrajności (nawet mało prawdopodobnej?) Obserwowanego efektu, w porównaniu do innych hipotetycznych wyników tego samego eksperymentu. Podczas gdy ta ostatnia mówi nam tylko, że to, co może być uznane za przekonującą wartość p w jednym eksperymencie, może nie być imponujące w innym, np. Jeśli rozmiary próbek się różnią.

  • Fakt, że niektóre dziedziny nauki wykorzystują inną linię podstawową silnych wartości p, może być albo odzwierciedleniem różnicy we wspólnych wielkościach próbek (astronomia, eksperymenty kliniczne, psychologiczne) i / lub próbą przekazania wielkości efektu w p- wartość. Ale to drugie jest niepoprawnym połączeniem tych dwóch.

  • Istotność to pytanie typu tak / nie oparte na alfie wybranej przed eksperymentem. Wartość p nie może zatem być ważniejsza niż inna, ponieważ są one mniejsze lub większe niż wybrany poziom istotności. Z drugiej strony, mniejsza wartość p będzie bardziej przekonująca niż większa (dla podobnej wielkości próby / identycznego eksperymentu, jak wspomniano w moim pierwszym punkcie).

  • Przedziały ufności z natury oddają wielkość efektu, dzięki czemu są dobrym wyborem, aby uchronić się przed wyżej wymienionymi problemami.

Zenit
źródło
0

Wartość p nie może być miarą zaskoczenia, ponieważ jest tylko miarą prawdopodobieństwa, gdy wartość null jest prawdziwa. Jeśli wartość null jest prawdziwa, wówczas każda możliwa wartość p jest równie prawdopodobna. Nie można się dziwić żadnej wartości p przed podjęciem decyzji o odrzuceniu wartości zerowej. Gdy ktoś zdecyduje, że jest jakiś efekt, znaczenie wartości p znika. Po prostu podaje się go jako ogniwo w stosunkowo słabym łańcuchu indukcyjnym, aby usprawiedliwić odrzucenie lub zerowanie wartości zerowej. Ale jeśli został odrzucony, nie ma już żadnego znaczenia.

Jan
źródło
+1 za fakt, że „gdy null jest prawdziwe, to każda wartość p jest równie prawdopodobna”, ale myślę, że dotyczy to ciągłych zmiennych losowych?
Zauważ, że powiedziałem, że każda „możliwa” wartość p jest równie prawdopodobna. Dotyczy to więc zmiennych dyskretnych lub ciągłych. W przypadku zmiennych dyskretnych liczba możliwych wartości jest mniejsza.
John
H0
Uważam, że wiodąca odpowiedź pokazuje, że to nie jest problem. Powodem, dla którego rozkład wygląda nierównomiernie, jest to, że możliwe wartości p są nierówno rozmieszczone. Glenn nazywa to nawet quasi-mundurem. Przypuszczam, że jest możliwe, że przy niektórych bardzo rzadkich testach danych dwumianowych z małymi N, być może prawdopodobieństwo określonych wartości p jest nierówne, ale jeśli weźmiesz pod uwagę prawdopodobieństwo wartości p w danym zakresie, będzie ono bliższe jednorodności.
John
1
H.0:μ=0,5p=0,0000000004H.0:μ=0,45p=0,0000000001μ=0,45