Czytałem o wartościach , wskaźnikach błędów typu 1, poziomach istotności, obliczeniach mocy, wielkościach efektów i debacie Fisher vs Neyman-Pearson. To sprawiło, że poczułem się trochę przytłoczony. Przepraszam za ścianę tekstu, ale czułem, że konieczne było przedstawienie mojego obecnego zrozumienia tych pojęć, zanim przejdę do moich faktycznych pytań.
Z tego, co zebrałem, wartość jest po prostu miarą zaskoczenia, prawdopodobieństwo uzyskania wyniku przynajmniej tak ekstremalne, biorąc pod uwagę, że hipoteza zerowa jest prawdziwa. Fisher początkowo miał to być ciągły środek.
W strukturze Neyman-Pearson wybierasz z góry poziom istotności i używasz go jako (arbitralnego) punktu odcięcia. Poziom istotności jest równy poziomowi błędu typu 1. Jest to określone przez częstotliwość długiego przebiegu, tj. Jeśli powtórzyłbyś eksperyment 1000 razy, a hipoteza zerowa jest prawdziwa, około 50 z tych eksperymentów dałoby znaczący efekt, ze względu na zmienność próbkowania. Wybierając poziom istotności, z pewnym prawdopodobieństwem chronimy się przed tymi fałszywymi pozytywami. Wartości tradycyjnie nie pojawiają się w tych ramach.
Jeśli znajdziemy wartość wynoszącą 0,01, nie oznacza to, że współczynnik błędu typu 1 wynosi 0,01, błąd typu 1 jest ustalany z góry. Uważam, że jest to jeden z głównych argumentów w debacie Fisher vs NP, ponieważ wartości p są często zgłaszane jako 0,05 *, 0,01 **, 0,001 ***. Może to wprowadzić w błąd ludzi, którzy twierdzą, że efekt jest znaczący przy określonej wartości p , a nie przy określonej wartości istotności.
Zdaję sobie również sprawę, że wartość jest funkcją wielkości próby. Dlatego nie można go stosować jako pomiaru bezwzględnego. Mała wartość p może wskazywać na niewielki, nieistotny efekt w eksperymencie z dużą próbką. Aby temu przeciwdziałać, ważne jest wykonanie obliczenia wielkości mocy / efektu przy określaniu wielkości próby dla eksperymentu. Wartości P mówią nam, czy jest jakiś efekt, a nie jak duży. Zobacz Sullivan 2012 .
Moje pytanie: Jak mogę pogodzić fakty, że wartość jest miarą zaskoczenia (mniejsza = bardziej przekonująca), a jednocześnie nie może być postrzegana jako miara absolutna?
Jestem zdezorientowany: czy możemy być bardziej pewni co do małej wartości niż dużej? W sensie fisheryjskim powiedziałbym, że tak, jesteśmy bardziej zaskoczeni. W ramach NP wybranie mniejszego poziomu istotności oznaczałoby, że silniej chronimy się przed fałszywymi pozytywami.
Ale z drugiej strony wartości zależą od wielkości próby. Nie są absolutną miarą. Dlatego nie możemy po prostu powiedzieć, że 0,001593 jest ważniejszy niż 0,0439. A jednak to, co wynikałoby z ram Fishera: bylibyśmy bardziej zaskoczeni tak ekstremalną wartością. Istnieje nawet dyskusja na temat tego, że termin „ bardzo znaczący” jest mylący: czy błędem jest odnosić się do wyników jako „bardzo znaczących”?
Słyszałem, że wartości w niektórych dziedzinach nauki są uważane za ważne tylko wtedy, gdy są mniejsze niż 0,0001, podczas gdy w innych dziedzinach wartości około 0,01 są już uważane za bardzo znaczące.
Powiązane pytania:
Dlaczego niższe wartości p nie stanowią więcej dowodów przeciwko zeru? Argumenty z Johansson 2011 (dostarczone przez @amoeba)
Odpowiedzi:
Czy mniejsze wartości „bardziej przekonujące”? Tak, oczywiście, że są.p
W ramach Fishera wartość jest kwantyfikacją ilości dowodów w stosunku do hipotezy zerowej. Dowody mogą być mniej lub bardziej przekonujące; im mniejsza wartość p , tym bardziej jest przekonująca. Zauważ, że w każdym eksperymencie ze stałą wielkością próbki np p n , -value jest monotonicznie związane z wielkością efektu, jak @Scortchi ładnie podkreśla w swojej odpowiedzi (+1). Tak więc mniejsze wartości p odpowiadają większym rozmiarom efektu; oczywiściep p są bardziej przekonujące!
W ramach Neyman-Pearson celem jest uzyskanie decyzji binarnej: albo dowody są „znaczące”, albo nie. Wybierając próg , gwarantujemy, że nie będziemy mieli więcej niż α wyników fałszywie dodatnich. Pamiętaj, że różne osoby mogą mieć na uwadze różne wartości α , patrząc na te same dane; być może, kiedy czytam artykuł z dziedziny, którą jestem sceptyczny, osobiście nie uważałbym za „znaczące” wyniki przy np. p = 0,03, chociaż autorzy nazywają je znaczącymi. Moje osobiste α może być ustawione na 0,001 lub coś takiego. Oczywiście im niższa zgłoszona strα α α p=0.03 α 0.001 p -wartość, tym bardziej sceptyczni czytelnicy będą w stanie przekonać! Dlatego ponownie niższe wartości są bardziej przekonujące.p
Obecnie standardową praktyką jest łączenie podejść Fishera i Neymana-Pearsona: jeśli , to wyniki nazywane są „znaczącymi”, a wartość p jest [dokładnie lub w przybliżeniu] podawana i stosowana jako miara przekonania (poprzez oznaczenie jej z gwiazdami, używając wyrażeń jako „bardzo znaczących” itp.); jeśli p > α , wówczas wyniki nazywane są „nieistotnymi” i to wszystko.p<α p p>α
Jest to zwykle określane jako „podejście hybrydowe” i rzeczywiście jest hybrydowe. Niektórzy twierdzą, że ta hybryda jest niespójna; Nie zgadzam się. Dlaczego wykonywanie dwóch ważnych czynności jednocześnie byłoby nieważne?
Dalsza lektura:
Czy „hybryda” między podejściem Fishera i Neymana-Pearsona do testów statystycznych jest rzeczywiście „niespójnym miszmaszem”? - moje pytanie dotyczące „hybrydy”. Wywołało to dyskusję, ale nadal nie jestem zadowolony z żadnej z odpowiedzi i planuję wrócić do tego wątku w pewnym momencie.
Czy błędem jest określanie wyników jako „bardzo znaczących”? - zobacz moją wczorajszą odpowiedź, która zasadniczo mówi: to nie jest źle (ale może trochę niechlujne).
Dlaczego niższe wartości p nie stanowią więcej dowodów przeciwko zeru? Argumenty z Johansson 2011 - przykład anty-Fishera, który twierdzi, żep wartości nie dostarczają dowodów przeciwko zeru; najlepsza odpowiedź @Momo dobrze sprawdza się w obalaniu argumentów. Moja odpowiedź na pytanie tytułowe brzmi: Ależ oczywiście.
źródło
Nie wiem, co oznacza to, że mniejsze wartości p są „lepsze” lub że jesteśmy „bardziej pewni” ich. Jednak uznanie wartości p za miarę tego, jak powinniśmy być zaskoczeni danymi, jeśli uważamy hipotezę zerową, wydaje się wystarczająco rozsądne; wartość p jest monotoniczną funkcją statystyki testowej, którą masz wybranejaby zmierzyć rozbieżność z hipotezą zerową w kierunku, który Cię interesuje, kalibrując ją pod kątem jej właściwości w ramach odpowiedniej procedury pobierania próbek z populacji lub losowego przypisywania eksperymentalnych metod leczenia. „Istotność” stała się terminem technicznym odnoszącym się do wartości p „powyżej albo poniżej pewnej określonej wartości; dlatego nawet ci, którzy nie są zainteresowani określaniem poziomów istotności oraz przyjmowaniem lub odrzucaniem hipotez, mają tendencję do unikania zwrotów takich jak „bardzo znaczący” - zwykłe przestrzeganie konwencji.
Jeśli chodzi o zależność wartości p od wielkości próby i wielkości efektu, może pojawić się pewne zamieszanie, ponieważ np. Mogłoby się wydawać, że 474 główki na 1000 rzutów powinno być mniej zaskakujące niż 2 na 10 dla kogoś, kto uważa, że moneta jest uczciwa - w końcu proporcja próbki tylko nieznacznie odbiega od 50% w pierwszym przypadku - jednak wartości p są prawie takie same. Ale prawda czy fałsz nie przyznają stopni; wartość p robi to, o co ją poproszono: często przedziały ufności dla parametru są naprawdę tym, co chce ocenić, jak dokładnie mierzono efekt, oraz praktyczne lub teoretyczne znaczenie jego oszacowanej wielkości.
źródło
Dziękuję za komentarze i sugerowane lektury. Miałem trochę czasu na przemyślenie tego problemu i wydaje mi się, że udało mi się wyodrębnić moje główne źródła zamieszania.
Początkowo myślałem, że istnieje dychotomia między postrzeganiem wartości p jako miary zaskoczenia a stwierdzeniem, że nie jest to miara absolutna. Teraz zdaję sobie sprawę, że te stwierdzenia niekoniecznie są ze sobą sprzeczne. To pierwsze pozwala nam być mniej lub bardziej pewnymi co do skrajności (nawet mało prawdopodobnej?) Obserwowanego efektu, w porównaniu do innych hipotetycznych wyników tego samego eksperymentu. Podczas gdy ta ostatnia mówi nam tylko, że to, co może być uznane za przekonującą wartość p w jednym eksperymencie, może nie być imponujące w innym, np. Jeśli rozmiary próbek się różnią.
Fakt, że niektóre dziedziny nauki wykorzystują inną linię podstawową silnych wartości p, może być albo odzwierciedleniem różnicy we wspólnych wielkościach próbek (astronomia, eksperymenty kliniczne, psychologiczne) i / lub próbą przekazania wielkości efektu w p- wartość. Ale to drugie jest niepoprawnym połączeniem tych dwóch.
Istotność to pytanie typu tak / nie oparte na alfie wybranej przed eksperymentem. Wartość p nie może zatem być ważniejsza niż inna, ponieważ są one mniejsze lub większe niż wybrany poziom istotności. Z drugiej strony, mniejsza wartość p będzie bardziej przekonująca niż większa (dla podobnej wielkości próby / identycznego eksperymentu, jak wspomniano w moim pierwszym punkcie).
Przedziały ufności z natury oddają wielkość efektu, dzięki czemu są dobrym wyborem, aby uchronić się przed wyżej wymienionymi problemami.
źródło
Wartość p nie może być miarą zaskoczenia, ponieważ jest tylko miarą prawdopodobieństwa, gdy wartość null jest prawdziwa. Jeśli wartość null jest prawdziwa, wówczas każda możliwa wartość p jest równie prawdopodobna. Nie można się dziwić żadnej wartości p przed podjęciem decyzji o odrzuceniu wartości zerowej. Gdy ktoś zdecyduje, że jest jakiś efekt, znaczenie wartości p znika. Po prostu podaje się go jako ogniwo w stosunkowo słabym łańcuchu indukcyjnym, aby usprawiedliwić odrzucenie lub zerowanie wartości zerowej. Ale jeśli został odrzucony, nie ma już żadnego znaczenia.
źródło