Mamy już wiele wątków oznaczonych jako wartości p, które ujawniają wiele nieporozumień na ich temat. Dziesięć miesięcy temu mieliśmy wątek o czasopiśmie psychologicznym, który „zakazał” wartości , obecnie Amerykańskie Stowarzyszenie Statystyczne (2016) mówi, że dzięki naszej analizie „nie powinniśmy kończyć się obliczeniem wartości ”.
Amerykańskie Stowarzyszenie Statystyczne (ASA) uważa, że społeczność naukowa mogłaby skorzystać z formalnego oświadczenia wyjaśniającego kilka powszechnie uzgodnionych zasad leżących u podstaw właściwego stosowania i interpretacji wartości .
Komitet wymienia inne podejścia jako możliwe alternatywy lub uzupełnienia wartości :
Z uwagi na powszechne nadużycia i nieporozumienia dotyczące wartości , niektórzy statystycy wolą uzupełniać lub nawet zastępować wartości p innymi podejściami. Należą do nich metody, które kładą nacisk na szacowanie zamiast testowania, takie jak zaufanie, wiarygodność lub przedziały prognozowania; Metody bayesowskie; alternatywne miary dowodów, takie jak współczynniki wiarygodności lub czynniki Bayesa; oraz inne podejścia, takie jak modelowanie teoretyczne i odsetek fałszywych odkryć. Wszystkie te miary i podejścia opierają się na dalszych założeniach, ale mogą one bardziej bezpośrednio dotyczyć wielkości efektu (i związanej z nim niepewności) lub tego, czy hipoteza jest poprawna.
Wyobraźmy sobie więc rzeczywistość po- . ASA wymienia niektóre metody, które można zastosować zamiast wartości p , ale dlaczego są one lepsze? Który z nich może być prawdziwym zamiennikiem naukowca, który przez całe życie stosował wartości p ? Wyobrażam sobie, że tego rodzaju pytania będą pojawiać Po wprowadzeniu P -values rzeczywistości, więc może spróbujmy być o krok przed nimi. Jaka jest rozsądna alternatywa, którą można zastosować natychmiast po wyjęciu z pudełka? Dlaczego takie podejście powinno przekonać głównego badacza, redaktora lub czytelników?
Jak sugeruje ten kolejny blog , wartości są nie do pobicia w swojej prostocie:
Wartość p wymaga jedynie modelu statystycznego do zachowania statystyki w ramach hipotezy zerowej. Nawet jeśli model alternatywnej hipotezy jest używany do wyboru „dobrej” statystyki (która byłaby wykorzystana do konstruowania wartości p), ten alternatywny model nie musi być poprawny, aby wartość p była ważna i przydatne (tj .: kontrola błędu typu I na pożądanym poziomie, przy jednoczesnym zapewnieniu pewnej mocy do wykrycia prawdziwego efektu). W przeciwieństwie do innych (wspaniałych i użytecznych) metod statystycznych, takich jak iloraz wiarygodności, szacowanie wielkości efektu, przedziały ufności lub metody bayesowskie, wszystkie wymagają założonych modeli, aby utrzymać je w szerszym zakresie sytuacji, a nie tylko w testowanym zeru.
Czy są, a może nie jest to prawdą i możemy je łatwo zastąpić?
Wiem, że jest to szerokie, ale główne pytanie jest proste: jaka jest najlepsza (i dlaczego) rzeczywista alternatywa dla wartości które można zastosować jako zamiennik?
ASA (2016). Oświadczenie ASA w sprawie istotności statystycznej i wartości The American Statistician. (w prasie)
Odpowiedzi:
Skoncentruję tę odpowiedź na konkretnym pytaniu, jakie są alternatywy dla wartości .p
Istnieje 21 dokumenty do dyskusji opublikowane wraz z oświadczeniem ASA (jako dodatkowe materiały): Naomi Altmana, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark i Steve Ziliak (niektóre z nich napisały razem ; Lista wszystkich do przyszłych wyszukiwań). Osoby te prawdopodobnie obejmują wszystkie istniejące opinie na temat wartości i wnioskowania statystycznego.p
Przejrzałem wszystkie 21 artykułów.
Niestety, większość z nich nie omawia żadnych rzeczywistych alternatyw, mimo że większość dotyczy ograniczeń, nieporozumień i różnych innych problemów z wartościami (dla obrony wartości p , patrz Benjamini, Mayo i Senn). To już sugeruje, że ewentualne alternatywy nie są łatwe do znalezienia i / lub obrony.p p
Spójrzmy więc na listę „innych podejść” podaną w samym oświadczeniu ASA (jak zacytowano w pytaniu):
Przedziały ufności
Przedziały ufności są częstym narzędziem, które idzie w parze z wartościami ; zgłaszanie przedziału ufności (lub jakiegoś równoważnego, np. średniej ± błędu standardowego średniej) wraz z wartością p jest prawie zawsze dobrym pomysłem.p ± p
Niektórzy ludzie (nie wśród dyskutantów ASA) sugerują, że przedziały ufności powinny zastąpić te -values. Jednym z najbardziej otwartych zwolenników tego podejścia jest Geoff Cumming, który nazywa to nowymi statystykami (imię, które mnie przeraża). Zobacz np. Ten post na blogu autorstwa Ulricha Schimmacka, aby uzyskać szczegółową krytykę: A Critical Review of Cumming's (2014) New Statistics: Reselling Old Statistics as New Statistics . Zobacz także Nie możemy sobie pozwolić na badanie wielkości efektu w blogu laboratoryjnym autorstwa Uri Simonsohna na podobny temat.p
Zobacz także ten wątek (i moją odpowiedź w nim) na temat podobnej sugestii Norma Matloffa, w której twierdzę, że zgłaszając CI nadal chcielibyśmy zgłaszać wartości : Co to jest dobry, przekonujący przykład, w którym wartości p są użyteczne?p
Niektóre inne osoby (również nie będące wśród sporów ASA) twierdzą jednak, że przedziały ufności, będące częstym narzędziem, są tak samo błędne jak wartości i należy je również pozbyć. Patrz np. Morey i in. 2015, Błąd polegający na pokładaniu zaufania w przedziałach ufności połączony przez @Tim tutaj w komentarzach. To bardzo stara debata.p
Metody bayesowskie
(Nie podoba mi się sposób, w jaki instrukcja ASA formułuje listę. Wiarygodne przedziały i czynniki Bayesa są wymienione osobno od „metod bayesowskich”, ale oczywiście są to narzędzia bayesowskie. Więc liczę je tutaj.)
Istnieje ogromna i bardzo opiniotwórcza literatura na temat debaty bayesowskiej vs. Zobacz np. Ten wątek z przemyśleniami: Kiedy (jeśli w ogóle) podejście częstokroć jest znacznie lepsze niż bayesowskie? Analiza bayesowska ma całkowity sens, jeśli ktoś ma dobre informacje na temat priorytetów, a wszyscy chętnie obliczą i podadzą lub p ( H 0 : θ = 0 | dane ) zamiast p ( dane przynajmniej tak ekstremalne | H 0 )p ( θ | dane ) p ( H0: θ = 0 | dane ) p ( dane co najmniej tak ekstremalne | H0) —Ale niestety ludzie zwykle nie mają dobrych priorytetów. Eksperymentator rejestruje 20 szczurów robiących coś w jednym stanie i 20 szczurów robiących to samo w innym stanie; przewiduje się, że wydajność poprzednich szczurów przewyższy wydajność drugich szczurów, ale nikt nie byłby skłonny, a nawet nie byłby w stanie wyrazić wyraźnego uprzedzenia w stosunku do różnic w wydajności. (Ale patrz odpowiedź @ FrankHarrella, w której opowiada się za „sceptycznymi przełożonymi”).
Zagorzali Bayesianie sugerują stosowanie metod bayesowskich, nawet jeśli nie ma się żadnego informacyjnego priory. Jednym z ostatnich przykładów jest Krushke, 2012, Bayesa oszacowanie zastępuje -testt , pokornie skrócie jako najlepsze. Chodzi o to, aby zastosować model bayesowski ze słabymi nieinformacyjnymi priory do obliczenia efektu tylnego dla interesującego efektu (takiego jak np. Różnica grupowa). Praktyczna różnica w rozumowaniu częstokroć wydaje się zwykle niewielka i, o ile widzę, takie podejście pozostaje niepopularne. Zobacz Co to jest „nieinformacyjny przeor”? Czy możemy kiedykolwiek mieć taki bez żadnych informacji? do dyskusji na temat tego, co jest „nieinformacyjne” (odpowiedź: nie ma czegoś takiego, stąd kontrowersja).
Alternatywne podejście, wracając do Harolda Jeffreysa, opiera się na testach bayesowskich (w przeciwieństwie do szacunków bayesowskich ) i wykorzystuje czynniki Bayesa. Jednym z bardziej wymownych i płodnych propagatorów jest Eric-Jan Wagenmakers, który opublikował wiele na ten temat w ostatnich latach. Warto tu podkreślić dwie cechy tego podejścia. Po pierwsze, patrz Wetzels i in., 2012, Domyślny test hipotezy bayesowskiej dla projektów ANOVA, aby zilustrować, jak silnie wynik takiego testu bayesowskiego może zależeć od konkretnego wyboru alternatywnej hipotezyH.1 i rozkład parametrów („przed”), który przyjmuje. Po drugie, po wybraniu „rozsądnego” przeora (Wagenmakers reklamuje tzw. „Domyślne” priorytety Jeffreysa), wynikające z tego czynniki Bayesa często okazują się dość spójne ze standardowymi wartościami , patrz np. Ta liczba z przedruku Marsmana i Wagenmakers :p
Tak więc, podczas gdy Wagenmakers i in. nie przestawajcie nalegać, aby wartości były głęboko wadliwe, a czynniki Bayesa są właściwą drogą, nie można się dziwić ... (Szczerze mówiąc, Wetzels i in. 2011 twierdzą, że dla wartości p bliskich 0,05 współczynników Bayesa wskazują na bardzo słabe dowody przeciw zerowej wartości, ale zauważmy, że można to łatwo rozwiązać w paradygmacie częstokroć, po prostu stosując bardziej rygorystyczne α , coś, co i tak popiera wiele osób.)p p 0,05 α
Jeden z bardziej popularnych artykułów Wagenmakers i in. w obronie czynników Bayesa jest rok 2011, dlaczego psychologowie muszą zmienić sposób analizowania swoich danych: przypadek psi, w którym twierdzi, że niesławna praca Bema na temat przewidywania przyszłości nie doszłaby do swoich błędnych wniosków, gdyby tylko zastosowali czynniki Bayesa od -values. Zobacz ten przemyślany post na blogu autorstwa Ulricha Schimmacka, aby uzyskać szczegółowy (i przekonujący IMHO) kontrargument: dlaczego psychologowie nie powinni zmieniać sposobu analizowania swoich danych: diabeł jest domyślnym przeorem .p
Zobacz także Domyślny post Bayesian Test jest uprzedzony w stosunku do małych efektów przez blogu Uri Simonsohn.
Dla kompletności wspomnę, że Wagenmakers 2007, Praktyczne rozwiązanie wszechobecnych problemów z wartościamip sugeruje użycie BIC jako przybliżenia współczynnika Bayesa w celu zastąpienia wartości . BIC nie zależy od wcześniejszego i dlatego, pomimo swojej nazwy, nie jest tak naprawdę bayesowski; Nie jestem pewien, co sądzić o tej propozycji. Wygląda na to, że ostatnio Wagenmakers bardziej popiera testy bayesowskie z nieinformacyjnymi priory Jeffreysa, patrz wyżej.p
Aby uzyskać dalsze omówienie oceny Bayesa vs. testowanie Bayesa, zobacz szacowanie parametrów Bayesa lub testowanie hipotezy Bayesa? i linki w nim zawarte.
Minimalne współczynniki Bayesa
Wśród sporów z ASA jest to wyraźnie sugerowane przez Benjamina i Bergera oraz Valena Johnsona (jedyne dwa artykuły, w których chodzi o sugerowanie konkretnej alternatywy). Ich konkretne sugestie są nieco inne, ale są podobne w duchu.
Idee Berger wrócić do Berger & Sellke 1987 i istnieje szereg dokumentów przez Berger Sellke i współpracowników Aż do ostatniego roku opracowując na tej pracy. Chodzi o to, że na podstawie ostrza i płyty techniki, gdzie punkt zerowy hipoteza ją prawdopodobieństwo 0,5 , a wszystkie pozostałe wartości ľ się prawdopodobieństwo 0,5 rozprzestrzenianie symetrycznie 0 ( „lokalny alternatywą”), wówczas minimalna tylnej P ( H 0 ) przez wszystkie lokalne alternatywy, tj. minimalny współczynnik Bayesa , są znacznie wyższe niż pμ = 0 0,5 μ 0,5 0 p ( H0) p -wartość. Jest to podstawa (bardzo kwestionowanego) twierdzenia, że wartości „zawyżają dowody” w stosunku do wartości zerowej. Sugeruje się użycie dolnej granicy współczynnika Bayesa na korzyść wartości null zamiast wartości p ; przy pewnych ogólnych założeniach ta dolna granica okazuje się być określona przez - e p log ( p ) , tj. wartość p jest skutecznie pomnożona przez - e log ( p ), który jest współczynnikiem około 10 do 20 dla wspólnego zakresu od str -values. Takie podejście zostało zatwierdzonep p - e p log( p ) p - e log( p ) 10 20 p autorstwa Stevena Goodmana.
Późniejsza aktualizacja: zobacz ładną kreskówkę wyjaśniającą te pomysły w prosty sposób.
Nawet późniejsza aktualizacja: Zobacz Held i Ott, 2018, O wartościach ip współczynnikach Bayesa, aby uzyskać kompleksowy przegląd i dalszą analizę konwersji wartości na minimalne czynniki Bayesa. Oto jeden stolik z tego miejsca:p
Valen Johnson zasugerował coś podobnego w swoim dokumencie PNAS 2013 ; jego sugestia sprowadza się w przybliżeniu do pomnożenia wartości przez √p co stanowi około5do10.- 4 πlog( p )---------√ 5 10
Krótka krytyka artykułu Johnsona znajduje się w odpowiedzi Andrew Gelmana i @ Xi'ana w PNAS. Kontrargument do Berger & Sellke 1987, patrz Casella i Berger 1987 (inny Berger!). Wśród dokumentów do dyskusji APA Stephen Senn wyraźnie sprzeciwia się jednemu z tych podejść:
Zobacz także odniesienia do artykułu Senna, w tym do bloga Mayo.
Oświadczenie ASA wymienia „modelowanie teoretyczne i odsetek fałszywych odkryć” jako kolejną alternatywę. Nie mam pojęcia, o czym mówią, i cieszę się, gdy stwierdził to w dokumencie do dyskusji Starka:
Jestem bardzo sceptycznie nastawiony do tego , że w praktyce naukowej istnieje coś , co może zastąpić wartości tak że problemy, które często są związane z wartościami p (kryzys replikacji, hakowanie p , itp.) Znikną. Wszelkie ustalona procedura podejmowania decyzji, np Bayesa jeden, można prawdopodobnie „hacked” w taki sam sposób, jak p -values mogą być p -hacked (z jakiegoś dyskusji i prezentacji to zobaczyć to 2014 blogu Uri Simonsohn ).p p p p p
Cytat z dokumentu do dyskusji Andrew Gelmana:
I od Stephena Senna:
I oto, w jaki sposób Cohen umieścił to w swoim dobrze znanym i cytowanym (3,5 tys. Cytatów) artykule z 1994 r. Ziemia jest okrągła ( ), wp <0.05 którym bardzo mocno argumentował przeciwko wartościom :p
źródło
Oto moje dwa centy.
Myślę, że w pewnym momencie wielu naukowców zastosowało następujące „twierdzenie”:
a większość złych praktyk pochodzi stąd.
Kiedyś pracowałem z ludźmi używającymi statystyk, ale tak naprawdę ich nie rozumiem. Oto niektóre rzeczy, które widzę:
Wszystko to robią dobrze zorientowani, uczciwi naukowcy, nie mający silnego poczucia oszukiwania. Dlaczego ? IMHO, z powodu Twierdzenia 1.
Innym powiązanym przypadkiem jest sytuacja, gdy eksperci chcą:
Wymienienie alternatywnej hipotezy jest jedynym rozwiązaniem pozwalającym rozwiązać ten przypadek.
Wydaje się więc, że stosowanie tylnych szans, współczynnika Bayesa lub współczynnika prawdopodobieństwa w połączeniu z przedziałami ufności / wiarygodności wydaje się zmniejszać główne związane z tym problemy.
Konkluzja moich dwóch centów
źródło
Z wyjątkiem modeli liniowych Gaussa i rozkładu wykładniczego, prawie wszystko, co robimy z wnioskami częstokierunkowymi, jest przybliżone (dobrym przykładem jest binarny model logistyczny, który powoduje problemy, ponieważ jego funkcja prawdopodobieństwa logarytmu jest bardzo niekwadratyczna). Dzięki wnioskowaniu bayesowskiemu wszystko jest dokładnie w granicach błędu symulacji (i zawsze możesz wykonać więcej symulacji, aby uzyskać prawdopodobieństwa późniejsze / wiarygodne przedziały).
Bardziej szczegółowe rozliczenie mojego myślenia i ewolucji napisałem na stronie http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html
źródło
Genialny prognostyk Scott Armstrong z Wharton opublikował artykuł prawie 10 lat temu zatytułowany Testy istotności Szkodliwe postępy w prognozowaniu w międzynarodowym czasopiśmie prognozującym czasopismo, którego był współzałożycielem. Chociaż dotyczy to prognozowania, można je uogólnić na analizę danych lub podejmowanie decyzji. W artykule stwierdza, że:
Jest to doskonała lektura dla każdego zainteresowanego antytetycznym poglądem na testowanie istotności i wartości P.
Powodem, dla którego podoba mi się ten artykuł, jest to, że Armstrong zapewnia alternatywy dla testów istotności, które są zwięzłe i można je łatwo zrozumieć, szczególnie dla takich statystycznych osób jak ja. Moim zdaniem jest to znacznie lepsze niż artykuł ASA cytowany w pytaniu:
Wszystko to nadal obejmuję i od tego czasu przestałem używać testów istotności lub patrzeć na wartości P, z wyjątkiem przypadków, gdy przeprowadzam randomizowane badania eksperymentalne lub quasi-eksperymenty. Muszę dodać, że randomizowane eksperymenty są bardzo rzadkie w praktyce, z wyjątkiem przemysłu farmaceutycznego / nauk przyrodniczych i niektórych dziedzin inżynierii.
źródło
Potrzebujemy końca teoretycznego wnioskowania statystycznego. Powinniśmy starać się myśleć poza hipotezą. Rosnąca przepaść między użytecznością kliniczną a badaniami opartymi na hipotezach zagraża integralności naukowej. „Znaczące” badanie jest niezwykle sugestywne, ale rzadko obiecuje jakiekolwiek klinicznie znaczące wyniki.
Jest to oczywiste, jeśli sprawdzimy atrybuty wnioskowania opartego na hipotezie:
Dla mnie alternatywą jest podejście metaanalityczne, przynajmniej jakościowe. Wszystkie wyniki powinny być rygorystycznie sprawdzone pod kątem innych „podobnych” ustaleń i różnic opisanych bardzo dokładnie, szczególnie kryteriów włączenia / wyłączenia, jednostek lub skal stosowanych do ekspozycji / wyników, a także wielkości efektów i przedziałów niepewności (które najlepiej podsumować 95% CI ).
Musimy również przeprowadzić niezależne próby potwierdzające. Wiele osób jest pod wpływem jednego z pozoru znaczącego procesu, ale bez replikacji nie możemy ufać, że badanie zostało przeprowadzone etycznie. Wielu uczyniło karierę naukową z fałszowania dowodów.
źródło
Dwa odniesienia z literatury medycznej są (1) autorstwa Langmana, MJS, zatytułowany Ku szacunkom i przedziałom ufności oraz Gardner MJ i Altman, DG, zatytułowanym Przedziały ufności zamiast wartości {P}: szacunek zamiast testowania hipotez
źródło
Moim wyborem byłoby kontynuować stosowanie wartości p, ale po prostu dodawanie przedziałów ufności / wiarygodności i ewentualnie dla przedziałów pierwotnych prognoz wyników. Jest bardzo fajna książka Douglasa Altmana (Statistics with Confidence, Wiley), a dzięki podejściom boostrap i MCMC zawsze możesz zbudować rozsądne przedziały.
źródło
Z całą pewnością nie wyklucza to normalnego testowania znaczenia hipotezy, ale podkreśla, że statystycznie znaczące wyniki są bardzo wcześnie, pośrednie kroki na drodze do prawdziwego odkrycia i powinniśmy oczekiwać, że naukowcy zrobią znacznie więcej ze swoimi odkryciami.
źródło