ASA omawia ograniczenia wartości

100

Mamy już wiele wątków oznaczonych jako które ujawniają wiele nieporozumień na ich temat. Dziesięć miesięcy temu mieliśmy wątek o czasopiśmie psychologicznym, który „zakazał” wartości p , obecnie Amerykańskie Stowarzyszenie Statystyczne (2016) mówi, że dzięki naszej analizie „nie powinniśmy kończyć się obliczeniem wartości ”.p

Amerykańskie Stowarzyszenie Statystyczne (ASA) uważa, że ​​społeczność naukowa mogłaby skorzystać z formalnego oświadczenia wyjaśniającego kilka powszechnie uzgodnionych zasad leżących u podstaw właściwego stosowania i interpretacji wartości .p

Komitet wymienia inne podejścia jako możliwe alternatywy lub uzupełnienia wartości :p

Z uwagi na powszechne nadużycia i nieporozumienia dotyczące wartości , niektórzy statystycy wolą uzupełniać lub nawet zastępować wartości p innymi podejściami. Należą do nich metody, które kładą nacisk na szacowanie zamiast testowania, takie jak zaufanie, wiarygodność lub przedziały prognozowania; Metody bayesowskie; alternatywne miary dowodów, takie jak współczynniki wiarygodności lub czynniki Bayesa; oraz inne podejścia, takie jak modelowanie teoretyczne i odsetek fałszywych odkryć. Wszystkie te miary i podejścia opierają się na dalszych założeniach, ale mogą one bardziej bezpośrednio dotyczyć wielkości efektu (i związanej z nim niepewności) lub tego, czy hipoteza jest poprawna.pp

Wyobraźmy sobie więc rzeczywistość po- . ASA wymienia niektóre metody, które można zastosować zamiast wartości p , ale dlaczego są one lepsze? Który z nich może być prawdziwym zamiennikiem naukowca, który przez całe życie stosował wartości p ? Wyobrażam sobie, że tego rodzaju pytania będą pojawiać Po wprowadzeniu P -values rzeczywistości, więc może spróbujmy być o krok przed nimi. Jaka jest rozsądna alternatywa, którą można zastosować natychmiast po wyjęciu z pudełka? Dlaczego takie podejście powinno przekonać głównego badacza, redaktora lub czytelników?pppp

Jak sugeruje ten kolejny blog , wartości są nie do pobicia w swojej prostocie:p

Wartość p wymaga jedynie modelu statystycznego do zachowania statystyki w ramach hipotezy zerowej. Nawet jeśli model alternatywnej hipotezy jest używany do wyboru „dobrej” statystyki (która byłaby wykorzystana do konstruowania wartości p), ten alternatywny model nie musi być poprawny, aby wartość p była ważna i przydatne (tj .: kontrola błędu typu I na pożądanym poziomie, przy jednoczesnym zapewnieniu pewnej mocy do wykrycia prawdziwego efektu). W przeciwieństwie do innych (wspaniałych i użytecznych) metod statystycznych, takich jak iloraz wiarygodności, szacowanie wielkości efektu, przedziały ufności lub metody bayesowskie, wszystkie wymagają założonych modeli, aby utrzymać je w szerszym zakresie sytuacji, a nie tylko w testowanym zeru.

Czy są, a może nie jest to prawdą i możemy je łatwo zastąpić?

Wiem, że jest to szerokie, ale główne pytanie jest proste: jaka jest najlepsza (i dlaczego) rzeczywista alternatywa dla wartości które można zastosować jako zamiennik?p


ASA (2016). Oświadczenie ASA w sprawie istotności statystycznej i wartości P. The American Statistician. (w prasie)

Tim
źródło
3
Związany z klasycznym pytaniem +1! Podejście bayesowskie, ponieważ pozwala nam (przynajmniej subiektywnie) odpowiedzieć na pytanie, które nas często interesuje, a mianowicie: „W świetle dowodów (danych), jakie jest prawdopodobieństwo, że hipoteza jest prawdziwa?”
Christoph Hanck
9
„ Rzeczywistość po wartości ” ma ładny pierścień dystopijny. p
Marc Claesen,
4
Artykuły do ​​dyskusji opublikowane wraz z oświadczeniem ASA są warte przeczytania, ponieważ niektóre z nich zawierają sugestie dotyczące tego, co może zastąpić wartości p. Treść uzupełniająca
Seth
2
Wysłałem powiązane pytanie na podstawie innej części raportu ASA, jednego z jego ostrzeżeń o potencjalnych nadużyciach wartości p: ile wiemy o hakowaniu p?
Silverfish,
1
Jako komentarz do mojego pytania, jest ładny wątek, który omawia podobny temat: stats.stackexchange.com/questions/17897/…
Tim

Odpowiedzi:

100

Skoncentruję tę odpowiedź na konkretnym pytaniu, jakie są alternatywy dla wartości .p

Istnieje 21 dokumenty do dyskusji opublikowane wraz z oświadczeniem ASA (jako dodatkowe materiały): Naomi Altmana, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark i Steve Ziliak (niektóre z nich napisały razem ; Lista wszystkich do przyszłych wyszukiwań). Osoby te prawdopodobnie obejmują wszystkie istniejące opinie na temat wartości i wnioskowania statystycznego.p

Przejrzałem wszystkie 21 artykułów.

Niestety, większość z nich nie omawia żadnych rzeczywistych alternatyw, mimo że większość dotyczy ograniczeń, nieporozumień i różnych innych problemów z wartościami (dla obrony wartości p , patrz Benjamini, Mayo i Senn). To już sugeruje, że ewentualne alternatywy nie są łatwe do znalezienia i / lub obrony.pp

Spójrzmy więc na listę „innych podejść” podaną w samym oświadczeniu ASA (jak zacytowano w pytaniu):

[Inne podejścia] obejmują metody, które kładą nacisk na szacowanie zamiast testowania, takie jak zaufanie, wiarygodność lub przedziały prognozowania; Metody bayesowskie; alternatywne miary dowodów, takie jak współczynniki wiarygodności lub czynniki Bayesa; oraz inne podejścia, takie jak modelowanie teoretyczne i odsetek fałszywych odkryć.

  1. Przedziały ufności

    Przedziały ufności są częstym narzędziem, które idzie w parze z wartościami ; zgłaszanie przedziału ufności (lub jakiegoś równoważnego, np. średniej ± błędu standardowego średniej) wraz z wartością p jest prawie zawsze dobrym pomysłem.p±p

    Niektórzy ludzie (nie wśród dyskutantów ASA) sugerują, że przedziały ufności powinny zastąpić te -values. Jednym z najbardziej otwartych zwolenników tego podejścia jest Geoff Cumming, który nazywa to nowymi statystykami (imię, które mnie przeraża). Zobacz np. Ten post na blogu autorstwa Ulricha Schimmacka, aby uzyskać szczegółową krytykę: A Critical Review of Cumming's (2014) New Statistics: Reselling Old Statistics as New Statistics . Zobacz także Nie możemy sobie pozwolić na badanie wielkości efektu w blogu laboratoryjnym autorstwa Uri Simonsohna na podobny temat.p

    Zobacz także ten wątek (i moją odpowiedź w nim) na temat podobnej sugestii Norma Matloffa, w której twierdzę, że zgłaszając CI nadal chcielibyśmy zgłaszać wartości : Co to jest dobry, przekonujący przykład, w którym wartości p są użyteczne?p

    Niektóre inne osoby (również nie będące wśród sporów ASA) twierdzą jednak, że przedziały ufności, będące częstym narzędziem, są tak samo błędne jak wartości i należy je również pozbyć. Patrz np. Morey i in. 2015, Błąd polegający na pokładaniu zaufania w przedziałach ufności połączony przez @Tim tutaj w komentarzach. To bardzo stara debata.p

  2. Metody bayesowskie

    (Nie podoba mi się sposób, w jaki instrukcja ASA formułuje listę. Wiarygodne przedziały i czynniki Bayesa są wymienione osobno od „metod bayesowskich”, ale oczywiście są to narzędzia bayesowskie. Więc liczę je tutaj.)

    • Istnieje ogromna i bardzo opiniotwórcza literatura na temat debaty bayesowskiej vs. Zobacz np. Ten wątek z przemyśleniami: Kiedy (jeśli w ogóle) podejście częstokroć jest znacznie lepsze niż bayesowskie? Analiza bayesowska ma całkowity sens, jeśli ktoś ma dobre informacje na temat priorytetów, a wszyscy chętnie obliczą i podadzą lub p ( H 0 : θ = 0 | dane ) zamiast p ( dane przynajmniej tak ekstremalne | H 0 )p(θ|dane)p(H.0:θ=0|dane)p(dane przynajmniej tak ekstremalne|H.0)—Ale niestety ludzie zwykle nie mają dobrych priorytetów. Eksperymentator rejestruje 20 szczurów robiących coś w jednym stanie i 20 szczurów robiących to samo w innym stanie; przewiduje się, że wydajność poprzednich szczurów przewyższy wydajność drugich szczurów, ale nikt nie byłby skłonny, a nawet nie byłby w stanie wyrazić wyraźnego uprzedzenia w stosunku do różnic w wydajności. (Ale patrz odpowiedź @ FrankHarrella, w której opowiada się za „sceptycznymi przełożonymi”).

    • Zagorzali Bayesianie sugerują stosowanie metod bayesowskich, nawet jeśli nie ma się żadnego informacyjnego priory. Jednym z ostatnich przykładów jest Krushke, 2012, Bayesa oszacowanie zastępuje -testt , pokornie skrócie jako najlepsze. Chodzi o to, aby zastosować model bayesowski ze słabymi nieinformacyjnymi priory do obliczenia efektu tylnego dla interesującego efektu (takiego jak np. Różnica grupowa). Praktyczna różnica w rozumowaniu częstokroć wydaje się zwykle niewielka i, o ile widzę, takie podejście pozostaje niepopularne. Zobacz Co to jest „nieinformacyjny przeor”? Czy możemy kiedykolwiek mieć taki bez żadnych informacji? do dyskusji na temat tego, co jest „nieinformacyjne” (odpowiedź: nie ma czegoś takiego, stąd kontrowersja).

    • Alternatywne podejście, wracając do Harolda Jeffreysa, opiera się na testach bayesowskich (w przeciwieństwie do szacunków bayesowskich ) i wykorzystuje czynniki Bayesa. Jednym z bardziej wymownych i płodnych propagatorów jest Eric-Jan Wagenmakers, który opublikował wiele na ten temat w ostatnich latach. Warto tu podkreślić dwie cechy tego podejścia. Po pierwsze, patrz Wetzels i in., 2012, Domyślny test hipotezy bayesowskiej dla projektów ANOVA, aby zilustrować, jak silnie wynik takiego testu bayesowskiego może zależeć od konkretnego wyboru alternatywnej hipotezy H.1i rozkład parametrów („przed”), który przyjmuje. Po drugie, po wybraniu „rozsądnego” przeora (Wagenmakers reklamuje tzw. „Domyślne” priorytety Jeffreysa), wynikające z tego czynniki Bayesa często okazują się dość spójne ze standardowymi wartościami , patrz np. Ta liczba z przedruku Marsmana i Wagenmakers :p

      Czynniki Bayesa a wartości p

      Tak więc, podczas gdy Wagenmakers i in. nie przestawajcie nalegać, aby wartości były głęboko wadliwe, a czynniki Bayesa są właściwą drogą, nie można się dziwić ... (Szczerze mówiąc, Wetzels i in. 2011 twierdzą, że dla wartości p bliskich 0,05 współczynników Bayesa wskazują na bardzo słabe dowody przeciw zerowej wartości, ale zauważmy, że można to łatwo rozwiązać w paradygmacie częstokroć, po prostu stosując bardziej rygorystyczne α , coś, co i tak popiera wiele osób.) pp0,05α

      Jeden z bardziej popularnych artykułów Wagenmakers i in. w obronie czynników Bayesa jest rok 2011, dlaczego psychologowie muszą zmienić sposób analizowania swoich danych: przypadek psi, w którym twierdzi, że niesławna praca Bema na temat przewidywania przyszłości nie doszłaby do swoich błędnych wniosków, gdyby tylko zastosowali czynniki Bayesa od -values. Zobacz ten przemyślany post na blogu autorstwa Ulricha Schimmacka, aby uzyskać szczegółowy (i przekonujący IMHO) kontrargument: dlaczego psychologowie nie powinni zmieniać sposobu analizowania swoich danych: diabeł jest domyślnym przeorem .p

      Zobacz także Domyślny post Bayesian Test jest uprzedzony w stosunku do małych efektów przez blogu Uri Simonsohn.

    • Dla kompletności wspomnę, że Wagenmakers 2007, Praktyczne rozwiązanie wszechobecnych problemów z wartościami p sugeruje użycie BIC jako przybliżenia współczynnika Bayesa w celu zastąpienia wartości . BIC nie zależy od wcześniejszego i dlatego, pomimo swojej nazwy, nie jest tak naprawdę bayesowski; Nie jestem pewien, co sądzić o tej propozycji. Wygląda na to, że ostatnio Wagenmakers bardziej popiera testy bayesowskie z nieinformacyjnymi priory Jeffreysa, patrz wyżej.p


    Aby uzyskać dalsze omówienie oceny Bayesa vs. testowanie Bayesa, zobacz szacowanie parametrów Bayesa lub testowanie hipotezy Bayesa? i linki w nim zawarte.

  3. Minimalne współczynniki Bayesa

    Wśród sporów z ASA jest to wyraźnie sugerowane przez Benjamina i Bergera oraz Valena Johnsona (jedyne dwa artykuły, w których chodzi o sugerowanie konkretnej alternatywy). Ich konkretne sugestie są nieco inne, ale są podobne w duchu.

    • Idee Berger wrócić do Berger & Sellke 1987 i istnieje szereg dokumentów przez Berger Sellke i współpracowników Aż do ostatniego roku opracowując na tej pracy. Chodzi o to, że na podstawie ostrza i płyty techniki, gdzie punkt zerowy hipoteza ją prawdopodobieństwo 0,5 , a wszystkie pozostałe wartości ľ się prawdopodobieństwo 0,5 rozprzestrzenianie symetrycznie 0 ( „lokalny alternatywą”), wówczas minimalna tylnej P ( H 0 ) przez wszystkie lokalne alternatywy, tj. minimalny współczynnik Bayesa , są znacznie wyższe niż pμ=00,5μ0,50p(H.0)p-wartość. Jest to podstawa (bardzo kwestionowanego) twierdzenia, że wartości „zawyżają dowody” w stosunku do wartości zerowej. Sugeruje się użycie dolnej granicy współczynnika Bayesa na korzyść wartości null zamiast wartości p ; przy pewnych ogólnych założeniach ta dolna granica okazuje się być określona przez - e p log ( p ) , tj. wartość p jest skutecznie pomnożona przez - e log ( p ), który jest współczynnikiem około 10 do 20 dla wspólnego zakresu od str -values. Takie podejście zostało zatwierdzonepp-miplog(p)p-milog(p)1020p autorstwa Stevena Goodmana.

      Późniejsza aktualizacja: zobacz ładną kreskówkę wyjaśniającą te pomysły w prosty sposób.

      Nawet późniejsza aktualizacja: Zobacz Held i Ott, 2018, O wartościach ip współczynnikach Bayesa, aby uzyskać kompleksowy przegląd i dalszą analizę konwersji wartości na minimalne czynniki Bayesa. Oto jeden stolik z tego miejsca:p

      Czynniki Mininuma Bayesa

    • Valen Johnson zasugerował coś podobnego w swoim dokumencie PNAS 2013 ; jego sugestia sprowadza się w przybliżeniu do pomnożenia wartości przez p co stanowi około5do10.-4πlog(p)510


    Krótka krytyka artykułu Johnsona znajduje się w odpowiedzi Andrew Gelmana i @ Xi'ana w PNAS. Kontrargument do Berger & Sellke 1987, patrz Casella i Berger 1987 (inny Berger!). Wśród dokumentów do dyskusji APA Stephen Senn wyraźnie sprzeciwia się jednemu z tych podejść:

    Prawdopodobieństwa błędu nie są prawdopodobieństwami późniejszymi. Z pewnością w analizie statystycznej jest znacznie więcej niż wartości ale należy je zostawić w spokoju, a nie w jakiś sposób zdeformować, aby stać się późniejszymi prawdopodobieństwami bayesowskimi.P.

    Zobacz także odniesienia do artykułu Senna, w tym do bloga Mayo.

  4. Oświadczenie ASA wymienia „modelowanie teoretyczne i odsetek fałszywych odkryć” jako kolejną alternatywę. Nie mam pojęcia, o czym mówią, i cieszę się, gdy stwierdził to w dokumencie do dyskusji Starka:

    Sekcja „inne podejścia” ignoruje fakt, że założenia niektórych z tych metod są identyczne jak w przypadku wartości . Rzeczywiście, niektóre metody wykorzystują wartości p jako dane wejściowe (np. Współczynnik fałszywych odkryć).pp


Jestem bardzo sceptycznie nastawiony do tego , że w praktyce naukowej istnieje coś , co może zastąpić wartości tak że problemy, które często są związane z wartościami p (kryzys replikacji, hakowanie p , itp.) Znikną. Wszelkie ustalona procedura podejmowania decyzji, np Bayesa jeden, można prawdopodobnie „hacked” w taki sam sposób, jak p -values mogą być p -hacked (z jakiegoś dyskusji i prezentacji to zobaczyć to 2014 blogu Uri Simonsohn ).ppppp

Cytat z dokumentu do dyskusji Andrew Gelmana:

Podsumowując, zgadzam się z większością stwierdzeń ASA w sprawie wartości ale uważam, że problemy są głębsze i że rozwiązaniem nie jest reforma wartości p lub zastąpienie ich innym podsumowaniem statystycznym lub progiem, ale raczej dążyć do większej akceptacji niepewności i akceptacji zmienności.pp

I od Stephena Senna:

Krótko mówiąc, problem jest mniejszy z wartościami takimi, ale z tworzeniem ich idola. Zastąpienie innego fałszywego boga nie pomoże.P.

I oto, w jaki sposób Cohen umieścił to w swoim dobrze znanym i cytowanym (3,5 tys. Cytatów) artykule z 1994 r. Ziemia jest okrągła ( ), wp<0,05 którym bardzo mocno argumentował przeciwko wartościom :p

[...] nie szukaj magicznej alternatywy dla NHST, jakiegoś innego obiektywnego mechanicznego rytuału, który mógłby go zastąpić. Nie istnieje.

ameba
źródło
1
@amoeba dzięki, to świetne podsumowanie! Zgadzam się z twoim sceptycyzmem - ten wątek powstał częściowo dlatego, że go podzielam. W tym momencie zostawiam wątek otwarty - bez żadnej akceptowanej odpowiedzi - ponieważ być może ktoś będzie w stanie przedstawić przekonujące przykłady i argumenty, że istnieje jakaś prawdziwa, dobra alternatywa.
Tim
1
@amoeba na temat Wagenmakers i BIC dobrze jest porównać to z krytyką, np. Gelman: andrewgelman.com/2008/10/10/23/i_hate_bic_blah
Tim
2
To naprawdę imponująca odpowiedź, która zasługuje na to, aby znaleźć się wśród najczęściej głosowanych odpowiedzi w CV. Mogę dodać kolejną nagrodę za Timem.
gung
Dzięki, @gung, cieszę się, że to wiele znaczy od ciebie. Powinienem jednak powiedzieć, że jestem tylko powierzchownie zaznajomiony z testami bayesowskimi i nie mam z nimi praktycznego doświadczenia. Ta odpowiedź zawiera streszczenie tego, co czytałem, ale tak naprawdę nie jest to opinia eksperta.
ameba
1
Nie, nie potrzebujesz informacyjnego przeora, aby Bayes działał dobrze. Jak dobrze pokazał Spiegelhalter, sceptyczni przeorowie odgrywają ważną rolę i są łatwi w użyciu. Bayesowskie prawdopodobieństwa boczne mają duże zalety.
Frank Harrell,
27

Oto moje dwa centy.

Myślę, że w pewnym momencie wielu naukowców zastosowało następujące „twierdzenie”:

p-wartość<0,05moja hipoteza jest prawdziwa.

a większość złych praktyk pochodzi stąd.

p

Kiedyś pracowałem z ludźmi używającymi statystyk, ale tak naprawdę ich nie rozumiem. Oto niektóre rzeczy, które widzę:

  1. p<0,05

  2. p<0,05

  3. 0,05

Wszystko to robią dobrze zorientowani, uczciwi naukowcy, nie mający silnego poczucia oszukiwania. Dlaczego ? IMHO, z powodu Twierdzenia 1.

p0,05p<0,05p<0,05

p

p

p>0,05

  1. spróbuj porównać (tylko dlatego, że mamy dane) hipotezę typu H.0:μ1μ2)pH.0p=0.2

pp(μ1>μ2)|x)p(μ1<μ2)|x)μ1>μ2)μ2)>μ1

Innym powiązanym przypadkiem jest sytuacja, gdy eksperci chcą:

  1. μ1>μ2)>μ3)μ1=μ2)=μ3)μ1>μ2)>μ3)

Wymienienie alternatywnej hipotezy jest jedynym rozwiązaniem pozwalającym rozwiązać ten przypadek.

Wydaje się więc, że stosowanie tylnych szans, współczynnika Bayesa lub współczynnika prawdopodobieństwa w połączeniu z przedziałami ufności / wiarygodności wydaje się zmniejszać główne związane z tym problemy.

p

pp

Konkluzja moich dwóch centów

p

peuhp
źródło
Może mógłbyś zredagować swój przykład, aby był bardziej przejrzysty, ponieważ na razie, co obliczałeś, jakie były dane i skąd pochodzą liczby?
Tim
@Tim. Tks za feedbak. Który przykład masz na myśli?
peuhp
„spróbuj porównać (tylko dlatego, że mamy dane) hipotezę: weź 10 i 10 danych, oblicz wartość p. Znajdź p = 0,2 ....”
Tim
1
Nie uważam też, że „znajomość” twojej hipotezy jest prawdziwa, nawet jeśli dane sugerują, że w przeciwnym razie jest to zła rzecz. Tak najwyraźniej Gregor Mendel wyczuł, kiedy coś było nie tak z jego eksperymentami, ponieważ miał tak silną intuicję, że jego teorie były poprawne.
dsaxton,
@dsaxton W pełni się z tobą zgadzam. Być może nie jest to tak jasne, ale to jest jedna rzecz, którą staram się zilustrować w moim pierwszym punkcie: wartość p nie jest ostatecznym kluczem indukcji naukowej (choć wydaje się, że jest to dla pewnej grupy odbiorców). Jest to statystyczny pomiar dowodów na podstawie pewnej ilości danych, pod pewnymi warunkami. A w przypadku, gdy masz zbyt wiele zewnętrznych powodów, aby sądzić, że hip jest prawdą, ale gdy dane zapewniają „dobrą” wartość p, inne kwestie mogą zostać omówione, tak jak o tym wspomniałeś. Spróbuję to wyjaśnić w mojej odpowiedzi.
peuhp
24

P.

  1. Dostępnych jest więcej programów do metod częstych niż metody bayesowskie.
  2. Obecnie niektóre analizy bayesowskie zajmują dużo czasu.
  3. Metody bayesowskie wymagają więcej myślenia i więcej czasu. Nie przeszkadza mi myślenie, ale czas jest często krótki, więc wybieramy skróty.
  4. Bootstrap to bardzo elastyczna i przydatna codzienna technika, która jest bardziej związana ze światem częstych niż z Bayesianem.

P.P. sprawia, że ​​trzeba dokonywać dowolnych korekt wielokrotności, a nawet korygować wygląd danych, które mogły wywrzeć wpływ, ale tak naprawdę nie miały.

P.

Z wyjątkiem modeli liniowych Gaussa i rozkładu wykładniczego, prawie wszystko, co robimy z wnioskami częstokierunkowymi, jest przybliżone (dobrym przykładem jest binarny model logistyczny, który powoduje problemy, ponieważ jego funkcja prawdopodobieństwa logarytmu jest bardzo niekwadratyczna). Dzięki wnioskowaniu bayesowskiemu wszystko jest dokładnie w granicach błędu symulacji (i zawsze możesz wykonać więcej symulacji, aby uzyskać prawdopodobieństwa późniejsze / wiarygodne przedziały).

Bardziej szczegółowe rozliczenie mojego myślenia i ewolucji napisałem na stronie http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html

Frank Harrell
źródło
3
p
2
p
3
t
1
Frank, dzięki. Nie znam się zbytnio na testach bayesowskich (i nie słyszałem wcześniej o Box & Tiao), ale mam ogólne wrażenie, że czynnik Bayesa, który dostaje się z testu bayesowskiego, może dość silnie zależeć od konkretnego wyboru nieinformacyjnego wcześniejszego wchodzi. A te wybory mogą być trudne do zmotywowania. Myślę, że to samo dotyczy wiarygodnych przedziałów - będą one silnie zależeć od wyboru nieinformacyjnego przeora. Czy to nie prawda? Jeśli tak, to jak sobie z tym poradzić?
ameba
2
Tak, chociaż nie używam czynników Bayesa. Podejście częstokierunkowe wybiera także przeor - taki, który ignoruje całą inną wiedzę na ten temat. Wolę sceptyczne wcześniejsze podejście Spiegelhaltera. W idealnym świecie pozwolisz swoim sceptykom zapewnić pierwszeństwo.
Frank Harrell
6

Genialny prognostyk Scott Armstrong z Wharton opublikował artykuł prawie 10 lat temu zatytułowany Testy istotności Szkodliwe postępy w prognozowaniu w międzynarodowym czasopiśmie prognozującym czasopismo, którego był współzałożycielem. Chociaż dotyczy to prognozowania, można je uogólnić na analizę danych lub podejmowanie decyzji. W artykule stwierdza, że:

„testy o znaczeniu statystycznym szkodzą postępowi naukowemu. Jak dotąd nie udało się znaleźć wyjątków od tego wniosku”.

Jest to doskonała lektura dla każdego zainteresowanego antytetycznym poglądem na testowanie istotności i wartości P.

Powodem, dla którego podoba mi się ten artykuł, jest to, że Armstrong zapewnia alternatywy dla testów istotności, które są zwięzłe i można je łatwo zrozumieć, szczególnie dla takich statystycznych osób jak ja. Moim zdaniem jest to znacznie lepsze niż artykuł ASA cytowany w pytaniu:wprowadź opis zdjęcia tutaj

Wszystko to nadal obejmuję i od tego czasu przestałem używać testów istotności lub patrzeć na wartości P, z wyjątkiem przypadków, gdy przeprowadzam randomizowane badania eksperymentalne lub quasi-eksperymenty. Muszę dodać, że randomizowane eksperymenty są bardzo rzadkie w praktyce, z wyjątkiem przemysłu farmaceutycznego / nauk przyrodniczych i niektórych dziedzin inżynierii.

Synoptyk
źródło
4
Co masz na myśli: „randomizowane eksperymenty są bardzo rzadkie w praktyce, z wyjątkiem przemysłu farmaceutycznego i niektórych dziedzin inżynierii”? Randomizowane eksperymenty są wszędzie w biologii i psychologii.
ameba
Zredagowałem to, aby uwzględnić nauki o życiu.
prezenter
2
Okej, ale mówiąc to rand. exp. są „bardzo rzadkie”, z wyjątkiem medycyny i nauk przyrodniczych, a psychologia zasadniczo mówi, że są „bardzo powszechne”. Nie jestem więc pewien co do tego, o co ci chodzi.
ameba
6

p wnioskowania opartego które mają dokładnie takie same logiczne wady.

p. Nadal uważam, że jest to odpowiednie podejście, które pozostawia kwestię naukowego zastosowania wyników w rękach tych ekspertów ds. Treści. Teraz błąd, który znajdujemy we współczesnych aplikacjach, nie jest w żaden sposób winą statystyki jako nauki. W grze jest także wędkarstwo, ekstrapolacja i przesada. Rzeczywiście, jeśli (powiedzmy) kardiolog powinien kłamać i twierdzić, że lek, który obniża średnie ciśnienie krwi o 0,1 mmHg, jest „klinicznie znaczący”, żadne statystyki nigdy nie ochronią nas przed tego rodzaju nieuczciwością.

Potrzebujemy końca teoretycznego wnioskowania statystycznego. Powinniśmy starać się myśleć poza hipotezą. Rosnąca przepaść między użytecznością kliniczną a badaniami opartymi na hipotezach zagraża integralności naukowej. „Znaczące” badanie jest niezwykle sugestywne, ale rzadko obiecuje jakiekolwiek klinicznie znaczące wyniki.

Jest to oczywiste, jeśli sprawdzimy atrybuty wnioskowania opartego na hipotezie:

  • Podana hipoteza zerowa jest wymyślona, ​​nie zgadza się z obecną wiedzą i przeczy rozumowi lub oczekiwaniom.
  • Hipotezy mogą być styczne do punktu, w którym autor próbuje się wypowiedzieć. Statystyki rzadko zgadzają się z większością dyskusji w artykułach, a autorzy wysuwają daleko idące twierdzenia, że ​​na przykład ich badanie obserwacyjne ma wpływ na porządek publiczny i zasięg.
  • Hipotezy są zwykle niekompletne w tym sensie, że nie określają odpowiednio zainteresowanej populacji i prowadzą do nadmiernej generalizacji

Dla mnie alternatywą jest podejście metaanalityczne, przynajmniej jakościowe. Wszystkie wyniki powinny być rygorystycznie sprawdzone pod kątem innych „podobnych” ustaleń i różnic opisanych bardzo dokładnie, szczególnie kryteriów włączenia / wyłączenia, jednostek lub skal stosowanych do ekspozycji / wyników, a także wielkości efektów i przedziałów niepewności (które najlepiej podsumować 95% CI ).

Musimy również przeprowadzić niezależne próby potwierdzające. Wiele osób jest pod wpływem jednego z pozoru znaczącego procesu, ale bez replikacji nie możemy ufać, że badanie zostało przeprowadzone etycznie. Wielu uczyniło karierę naukową z fałszowania dowodów.

AdamO
źródło
„Oryginalna sugestia Fishera była taka, że ​​naukowcy powinni jakościowo porównać wartość p z siłą badania i wyciągnąć z tego wnioski”. Uwielbiam ten punkt - czy masz referencję, którą mógłbym zacytować, gdy Fisher to powiedział? Byłby ogromny krok naprzód, gdyby naukowcy przeszli od prostej dychotomii p <0,05 do tylko nieco mniej prostej dychotomii: „Jeśli p <0,05 ORAZ moc była wysoka, mamy dość mocne dowody. Jeśli p> 0,05 LUB moc była niska, wstrzymamy się z oceną tej hipotezy, dopóki nie uzyskamy więcej danych ”.
civilstat
6

ppp

Dwa odniesienia z literatury medycznej są (1) autorstwa Langmana, MJS, zatytułowany Ku szacunkom i przedziałom ufności oraz Gardner MJ i Altman, DG, zatytułowanym Przedziały ufności zamiast wartości {P}: szacunek zamiast testowania hipotez

mdewey
źródło
2
Właściwie, CI nie pokazują wielkości efektu i precyzji, sprawdź np. Morey i in. (2015) „Błąd polegający na zaufaniu w przedziały ufności” Biuletyn i przegląd psychonomiczny
Tim
8
@Tim, fajny papier, nie widziałem go wcześniej; Podobał mi się okręt podwodny. Dzięki za link. Ale należy powiedzieć, że jest napisany przez prawdziwych partyzantów bayesowskich: „Przerwy nie bayesowskie mają niepożądane, wręcz dziwaczne właściwości, które skłoniłyby każdego rozsądnego analityka do odrzucenia ich jako sposobu wyciągania wniosków”. Każdy rozsądny analityk! Imponująca arogancja.
ameba
1
@amoeba zgadza się, podam tylko przykład, ponieważ dla mnie nie jest tak oczywiste, że alternatywy są tak jasne i bezpośrednie, jak mogą się pojawić na pierwszy rzut oka.
Tim
4
Chociaż interesujące nie uważałem, że okręt podwodny jest tak atrakcyjny. Żaden myślący statystyk nie uzasadniałby tak, jak w przykładzie. Nie przestajesz myśleć i stosujesz metodę na ślepo we wszystkich sytuacjach tylko dlatego, że jest przydatna w innych.
dsaxton,
2
@amoeba: W tym konkretnym cytacie „przedziały nie Bayesowskie” odnoszą się konkretnie do przedziałów omawianych w tym przykładzie, a nie wszystkich przedziałów uzasadnionych logiką nie Bayesowską. Zobacz tutaj więcej kontekstu: stats.stackexchange.com/questions/204530/...
richarddmorey
1

Moim wyborem byłoby kontynuować stosowanie wartości p, ale po prostu dodawanie przedziałów ufności / wiarygodności i ewentualnie dla przedziałów pierwotnych prognoz wyników. Jest bardzo fajna książka Douglasa Altmana (Statistics with Confidence, Wiley), a dzięki podejściom boostrap i MCMC zawsze możesz zbudować rozsądne przedziały.

Joe_74
źródło
6
Myślę, że tak naprawdę nie odpowiadasz na główne pytanie: „dlaczego są lepsze?” / „Dlaczego takie podejście powinno przekonać głównego badacza, redaktora lub czytelników?”. Czy możesz rozwinąć swój wybór?
peuhp
1. To jedynie umożliwia obecną praktykę. 2. W każdym razie istnieje tendencja do przeprowadzania „testowania znaczenia backdoora” z CI, 3. Testowanie istotności (z wartościami p lub CI) prowadzi do niskiej szybkości odtwarzalności (patrz artykuły Tima Lasha). 4. Naukowcy nie mogą zawracać sobie głowy określeniem klinicznie istotnej granicy lub progu skuteczności.
AdamO,
1

p wartości ponieważ wymaga tego badacz

  • opracować bardziej wyrafinowany model, który jest w stanie symulować wyniki w populacji docelowej
  • identyfikować i mierzyć atrybuty populacji docelowej, w której można wdrożyć proponowaną decyzję, leczenie lub politykę
  • oszacować w drodze symulacji oczekiwaną stratę w jednostkach surowych ilości docelowej, takiej jak lata życia, lata życia skorygowane o jakość, dolary, wielkość zbiorów itp., oraz oszacować niepewność tego oszacowania.

Z całą pewnością nie wyklucza to normalnego testowania znaczenia hipotezy, ale podkreśla, że ​​statystycznie znaczące wyniki są bardzo wcześnie, pośrednie kroki na drodze do prawdziwego odkrycia i powinniśmy oczekiwać, że naukowcy zrobią znacznie więcej ze swoimi odkryciami.

AdamO
źródło