Dziennik psychologiczny zakazał wartości p i przedziałów ufności; czy rzeczywiście mądrze jest przestać ich używać?

73

W dniu 25 lutego 2015 r. Czasopismo Basic and Applied Social Psychology opublikowało artykuł wstępny zakazujący wartości i przedziałów ufności we wszystkich przyszłych artykułach.p

Mówią w szczególności (formatowanie i podkreślanie są moje):

  • [...] przed publikacją autorzy będą musieli usunąć wszelkie pozostałości z NHSTP [procedura testowania znaczenia hipotezy zerowej] ( wartości wartości wartości , stwierdzenia o różnicach „znaczących” lub ich braku , i tak dalej).ptF

  • Analogicznie do tego, w jaki sposób NHSTP nie zapewnia prawdopodobieństwa hipotezy zerowej, która jest potrzebna do uzasadnienia jej odrzucenia, przedziały ufności nie stanowią mocnego dowodu, aby stwierdzić, że interesujący parametr populacji prawdopodobnie mieści się w podanym zakresie interwał. Dlatego przedziały ufności są również zakazane w BASP.

  • [...] w odniesieniu do procedur bayesowskich zastrzegamy sobie prawo do wydawania indywidualnych orzeczeń, dlatego też procedury bayesowskie nie są wymagane ani zakazane od BASP.

  • [...] Czy wymagane są wnioskowania statystyczne? - Nie [...] Jednak BASP będzie wymagał silnych statystyk opisowych, w tym rozmiarów efektów.

Nie omawiajmy tutaj problemów i niewłaściwego wykorzystania wartości ; jest już wiele doskonałych dyskusji na temat CV, które można znaleźć, przeglądając znacznik p-value . Krytyka wartości często idzie w parze z poradą dotyczącą zgłaszania przedziałów ufności dla parametrów będących przedmiotem zainteresowania. Na przykład w tej bardzo dobrze uzasadnionej odpowiedzi @gung sugeruje zgłaszanie wielkości efektów z przedziałami ufności wokół nich. Ale ten dziennik zakazuje również przedziałów ufności.pp

Jakie są zalety i wady takiego podejścia do przedstawiania danych i wyników eksperymentalnych w porównaniu do „tradycyjnego” podejścia z wartościami , przedziałami ufności i znaczną / nieznaczną dychotomią? Reakcja na ten zakaz wydaje się w większości negatywna; więc jakie są wady? Amerykańskie Stowarzyszenie Statystyczne opublikowało nawet krótki zniechęcający komentarz na temat tego zakazu, mówiąc, że „ta polityka może mieć swoje własne negatywne konsekwencje”. Jakie mogą być te negatywne konsekwencje?p

Lub, jak to ujął @whuber, czy takie podejście powinno być ogólnie propagowane jako paradygmat badań ilościowych? A jeśli nie to dlaczego nie?

PS. Zauważ, że moje pytanie nie dotyczy samego zakazu ; chodzi o sugerowane podejście. Nie pytam też o wnioskowanie częstokrzyskie vs. bayesowskie. Artykuł wstępny jest dość negatywny także w odniesieniu do metod bayesowskich; więc chodzi przede wszystkim o stosowanie statystyk, a nie o korzystanie ze statystyk w ogóle.


Inne dyskusje: reddit , Gelman .

ameba
źródło
14
W modelach regresji liniowej istnieje mapowanie jeden na jeden między wartościami p i przedziałami ufności, więc nie widzę mocnego powodu, dla którego zakazanie wartości p, ale zachowanie przedziałów ufności miałoby sens. Ale zakazanie zarówno wartości p, jak i przedziałów ufności pozostawia lukę w opisie wyników ... Zastanawiam się, czy pozwalają one na zgłaszanie standardowych błędów (byłby to kolejny miernik tej samej grupy mapowania jeden do jednego).
Richard Hardy
7
Wszystko może być niewłaściwie wykorzystane, więc banowanie rzeczy pod tym warunkiem jest ... cóż ... dziwne. Nie jestem fanem wartości p, ale wydaje się to dość naiwnym podejściem do problemu. Jedną rzeczą jest zachęcanie do używania odpowiednich rzeczy, ale banowanie rzeczy nie wydaje się być właściwym sposobem radzenia sobie z problemem ...
Tim
12
Świetny pomysł. Korzystanie ze statystyk po prostu ukrywa nienaukowy charakter tego pola.
Aksakal,
4
Wydaje się to całkowitą reakcją na frustrację związaną z niewłaściwym użyciem wartości p. Byłbym znacznie szczęśliwszy z zakazu niewłaściwego używania wartości p zamiast ogólnie wartości P.
TrynnaDoStat
8
Czwarty element na liście sugeruje, że nie wymagają one oszacowań punktowych, co byłoby wnioskowanie, ale rozmiary efektów zgłaszane jedynie jako statystyki opisowe. (Niemniej jednak kilka wierszy w artykule wstępnym „zachęcamy do stosowania większych próbek niż jest to typowe w wielu badaniach psychologicznych, ponieważ wraz ze wzrostem wielkości próby statystyki opisowe stają się coraz bardziej stabilne, a błąd próbkowania staje się mniejszym problemem”. Z niecierpliwością czekam na apel redakcji 2016 o badania nad sformalizowaniem tego pojęcia stabilności i ilościowego rozliczania skutków błędu próbkowania.)
Scortchi

Odpowiedzi:

23

Pierwsze zdanie bieżącego artykułu wstępnego z 2015 r., Do którego prowadzi link PO, brzmi:

Podstawowa i stosowana psychologia społeczna (BASP) 2014 Editorial * podkreśliła *, że procedura testowania znaczenia zerowej hipotezy (NHSTP) jest nieprawidłowa ...

(mój nacisk)

Innymi słowy, dla redaktorów jest już udowodnionym naukowym faktem, że „testowanie znaczenia hipotezy zerowej” jest nieważne, a artykuł redakcyjny z 2014 r. Tylko to podkreślił, podczas gdy obecny artykuł redakcyjny z 2015 r. Po prostu wdraża ten fakt.

Niewłaściwe wykorzystanie (nawet złośliwie) NHSTP jest rzeczywiście dobrze omówione i udokumentowane. I nie jest niczym niezwykłym w historii ludzkości, że „rzeczy są zakazane”, ponieważ stwierdzono, że po tym wszystkim, co powiedziano i zrobiono, były nadużywane bardziej niż dobrze wykorzystywane (ale czy nie powinniśmy tego statystycznie testować?). Może to być „drugie najlepsze” rozwiązanie, aby ograniczyć to, co średnio (statystyki wnioskowania) doszło do strat, a nie zysków, i dlatego przewidujemy (statystyki wnioskowania), że będzie to również szkodliwe w przyszłości.

Ale zapał ujawnił za treść zdaniu pierwszym, czyni to wyglądać -exactly jako fanatyka podejścia zamiast chłodnej głowie decyzji wyciąć rękę, która ma tendencję do kradzieży zamiast ofertą. Jeśli przeczytasz starszy o rok artykuł wstępny wspomniany w powyższym cytacie (DOI: 10.1080 / 01973533.2014.865505), zobaczysz, że jest to tylko część zmiany zasad czasopisma przez nowego redaktora.

Przewijają artykuł redakcyjny i piszą

... Przeciwnie, uważamy, że słupek p <0,05 jest zbyt łatwy do przejścia i czasami służy jako wymówka dla badań o niższej jakości.

Wydaje się więc, że ich wniosek związany z ich dyscypliną jest taki, że hipotezy zerowe są odrzucane „zbyt często”, a zatem domniemane ustalenia mogą zyskać fałszywe znaczenie statystyczne. To nie jest ten sam argument, co „nieważne” zdanie w pierwszym zdaniu.

Tak więc, aby odpowiedzieć na to pytanie, oczywiste jest, że dla redaktorów czasopisma ich decyzja jest nie tylko rozsądna, ale już opóźniona w realizacji: wydaje się, że myślą, że wycinają część statystyk, która stała się szkodliwa, utrzymując korzystne części - nie wydają się wierzyć, że jest tu coś, co wymaga zastąpienia czymś „równoważnym”.

Z epistemologicznego punktu widzenia jest to przypadek, w którym naukowcy nauk społecznych częściowo wycofują się z próby uczynienia swojej dyscypliny bardziej obiektywną w zakresie jej metod i wyników za pomocą metod ilościowych, ponieważ doszli do wniosku (jak?), Że ostatecznie , próba spowodowała „więcej złego niż dobrego”. Powiedziałbym, że jest to bardzo ważna kwestia, która w zasadzie mogła się zdarzyć, i która wymagałaby lat pracy, aby zademonstrować ją „ponad wszelką wątpliwość” i naprawdę pomóc w dyscyplinie. Ale tylko jeden lub dwa artykuły redakcyjne i opublikowane artykuły najprawdopodobniej (statystyki wnioskowania) wywołają wojnę domową.

Ostatnie zdanie artykułu wstępnego z 2015 r. Brzmi:

Mamy nadzieję i spodziewamy się, że zakazanie NHSTP wpłynie na poprawę jakości przedłożonych manuskryptów poprzez uwolnienie autorów ze zdumionej struktury myślenia NHSTP, eliminując w ten sposób istotną przeszkodę dla twórczego myślenia. NHSTP od dziesięcioleci dominuje w psychologii; mamy nadzieję, że wprowadzając pierwszy zakaz NHSTP, pokażemy, że psychologia nie potrzebuje kuli NHSTP i że inne dzienniki podążają tym samym tropem.

Alecos Papadopoulos
źródło
5
Tak ... musimy zachować ostrożność, pisząc na tej stronie wulgarne lub sardoniczne odpowiedzi: mogą być (całkowicie) źle zrozumiane!
whuber
4
@ naught101 ... to nie byłoby bardzo dyplomatyczne. Zauważ, że sposób, w jaki potępia się NHSTP, oszczędza psychologom, że używali go przez te wszystkie dziesięciolecia. Gdyby napisano to tak, jak proponujesz, wyglądałoby to bardziej jak bezpośredni atak na ich kolegów jako naukowców. W obecnym stanie rzeczy tekst sugeruje, że psycholodzy pełni dobrych intencji zostali niestety wprowadzeni w błąd przez „kogoś”, który nadużył swojej „władzy autorytetu naukowego” w tej sprawie ... Być może przez złych statystów kierowanych przez naukowców imperializm?
Alecos Papadopoulos
4
Złej roboty zarzuca mu swoje narzędzia.
naught101
3
@BrianDHall Proponuję poszukać bardziej autorytatywnych zasobów na tematy związane z NHSTP (w tym strona), niż konkretnych prac autora na ten temat. Sprawa jest trudna i subtelna - już od twojego komentarza należy najpierw omówić semantykę wokół „zaakceptuj” i „
zapewnij
6
@ naught101: Jeśli zauważysz, że robotnik nie może właściwie obsługiwać piły łańcuchowej, możesz nie winić narzędzia. Ale nadal zabrałbyś to robotnikowi, aby zapobiec dalszej szkodzie ;-)
nikie
19

Uważam, że zakaz testowania hipotez jest świetnym pomysłem, z wyjątkiem kilku wybranych hipotez „egzystencjalnych”, np. Testowanie hipotezy zerowej, że nie ma postrzegania pozazmysłowego, w którym wszyscy musieliby wykazać, że istnieją dowody na istnienie ESP, jest nieprzypadkowy . Wydaje mi się jednak, że czasopismo nie rozumie, że głównym powodem złych badań w dziedzinie psychologii jest zastosowanie progu wartościW psychologii i większości innych dziedzin wykazano, że znaczna część gier hazardowych osiąga . Obejmuje to podstawianie hipotez, usuwanie obserwacji i podzbiór danych. Najpierw powinny zostać zakazane progi.P < 0,05PP<0.05

Zakaz stosowania przedziałów ufności jest również przesadzony, ale nie z powodów, które podali inni. Przedziały ufności są użyteczne tylko wtedy, gdy błędnie interpretuje się je jako wiarygodne przedziały bayesowskie (dla odpowiednich priorytetów nieinformacyjnych). Ale nadal są przydatne. Fakt, że ich dokładna interpretacja często prowadzi do zamieszania, oznacza, że ​​musimy „wyjść z Dodge” i pójść do szkoły bayesowskiej lub prawdopodobieństwa. Ale przydatne wyniki można uzyskać, błędnie interpretując stare dobre limity ufności.

Szkoda, że ​​redaktorzy czasopisma źle zrozumieli statystyki bayesowskie i nie wiedzą o istnieniu wnioskowania o czystym prawdopodobieństwie. To, czego szukają, może być łatwo zapewnione przez bayesowskie dystrybucje boczne przy użyciu nieco sceptycznych przeorów.

Frank Harrell
źródło
+1, dzięki. Pozwól mi wyjaśnić dotyczące przedziałów ufności. Przedziały ufności są powiązane ze standardowymi błędami, więc prawdopodobnie prawdopodobnie przestaniesz je również stosować. Rozważmy najprostszy przypadek: pewna wartość jest mierzona w grupie przedmiotów / obiektów; powiedzmy, że średnia to 3. O ile rozumiem, ten dziennik sugeruje, aby zgłosić to po prostu jako 3. Ale czy nie chciałbyś też widzieć standardowego błędu, np. ? To oczywiście oznacza, że ​​95% przedział ufności wynosi , co oznacza również, że , więc wszystko jest powiązane. Nie jestem pewien, jak sugerujesz to zgłosić. 3 ± 0,5 3 ± 1 p < 0,05n3±0.53±1p<0.05
ameba
4
Myślę, że standardowe błędy są nadmiernie uproszczone (ponieważ zakładają rozkład symetryczny), ale użyteczne miary precyzji, takie jak średni błąd kwadratowy. Możesz wymyślić przedział precyzji oparty na średnim kwadracie błędu bez przewidywania pokrycia prawdopodobieństwa. Nie rozumiem więc, gdzie którakolwiek z tych dyskusji sugeruje odejście od standardowych błędów. I nie sugerowałem, żebyśmy przestali używać CL. Ale trudność z CL wynika głównie z prób interpretacji prawdopodobieństwa.
Frank Harrell
Hmmm. Ciekawy. Wydaje mi się, że jest tak mały krok od standardowego błędu do CI (stały czynnik!), Że traktowanie ich inaczej byłoby dziwne. Być może jest to jednak kwestia semantyczna; Wydaje mi się, że masz na myśli to, że ludzie myślą o standardowych błędach i elementach CI inaczej i mają tendencję do coraz większego zamieszania na temat elementów CI. Zastanawiam się, co ta konkretna polityka czasopisma mówi o standardowych błędach (artykuł redakcyjny nie wspomina o nich wyraźnie).
ameba
2
W sytuacjach symetrycznych błąd standardowy jest elementem składowym przedziału ufności. Ale w wielu przypadkach prawidłowy przedział ufności jest asymetryczny, więc nie może być w ogóle oparty na standardowym błędzie. Niektóre odmiany bootstrap i back-transforming to dwa podejścia tego typu. Szczególnie przychodzą na myśl przedziały ufności profilu.
Frank Harrell
@Frank Harrell - Co do „wnioskowania o czystym prawdopodobieństwie” Zgadzam się, że nacisk na podsumowanie prawdopodobieństwa danych bez upiększania ich progami wydaje się być odpowiedzią, którą chwytali redaktorzy. Książka „Prawdopodobieństwo” (1972) AWF Edwards bezpośrednio odnosi się do obaw redakcji: „Możemy odroczyć rozpatrzenie tych argumentów (np. Testowanie istotności) do późniejszych rozdziałów i przejść od razu do opisu procedury opartej na koncepcji prawdopodobieństwa Fishera , który jest otwarty na żaden z tych obiektów, które mogą zostać wyrównane podczas testów istotności. ”
John Mark,
13

Widzę to podejście jako próbę rozwiązania problemu niezdolności psychologii społecznej do odtworzenia wielu wcześniej opublikowanych „znaczących odkryć”.

Jego wady to:

  1. że nie zajmuje się wieloma czynnikami prowadzącymi do fałszywych efektów. Na przykład,

    • A) Ludzie nadal mogą przeglądać swoje dane i przestać przeprowadzać badania, gdy rozmiar efektu wydaje im się wystarczająco duży, aby wzbudzić zainteresowanie.

    • B) Duże rozmiary efektów nadal będą miały dużą moc w retrospektywnych ocenach mocy.

    • C) Ludzie nadal będą szukać ciekawych i dużych efektów (testowanie szeregu hipotez w eksperymencie, a następnie zgłaszanie tej, która się pojawiła) lub

    • D) udawaj, że przez cały czas oczekiwano nieoczekiwanego dziwnego efektu.

    Czy nie należy podejmować wysiłków, aby najpierw rozwiązać te problemy?

  2. Jako pole idące naprzód sprawi, że przegląd poprzednich odkryć będzie okropny. Nie ma możliwości ilościowej oceny wiarygodności różnych badań. Jeśli w każdym czasopiśmie wdrożono to podejście, wielu badaczy społecznych twierdzi, że istnieją dowody na X, gdy nie jest całkowicie jasne, jak wiarygodny jest X, a naukowcy spierają się o to, jak interpretować opublikowany efekt lub argumentują, czy jest to ważne, czy warte rozmawiać o. Czy nie o to chodzi w statystykach? Aby zapewnić spójny sposób oceny liczb. Moim zdaniem to nowe podejście spowodowałoby bałagan, gdyby zostało szeroko wdrożone.

  3. Ta zmiana nie zachęca badaczy do przesyłania wyników badań z małymi rozmiarami efektów, więc tak naprawdę nie odnosi się do efektu szuflady plików (czy też zamierzają opublikować wyniki z dużymi wartościami n niezależnie od wielkości efektu?). Gdybyśmy opublikowali wszystkie wyniki starannie zaprojektowanych badań, to mimo że wiarygodność wyników poszczególnych badań może być niepewna, metaanalizy i przeglądy badań, które dostarczyły analizy statystyczne, znacznie lepiej sprawdzą się w rozpoznaniu prawdy.

captain_ahab
źródło
2
@captain_ahab Jeśli chodzi o punkt 3, musimy wspomnieć, że poprzedni artykuł redakcyjny (2014) Redaktora wyraźnie zachęcał do przedstawienia badań „zerowego efektu”.
Alecos Papadopoulos
1
Wydaje mi się, że nie mogę znaleźć komentarza w artykule redakcyjnym omawiającym jakiekolwiek kryteria publikacji, z wyjątkiem potrzeby posiadania większej próby niż normalnie (sposób, w jaki planują zidentyfikować dopuszczalne wartości n bez wnioskowania statystycznego, jest dla mnie niejasny). Dla mnie w tym artykule wstępnym nie podkreślono, że nie obchodzi ich wielkość efektu. Wydaje mi się, że nadal będą szukać interesujących efektów i ciekawych historii, które moim zdaniem są większym problemem w pracy nauk społecznych (tj. Post-hoc poszukiwania interesujących efektów i historii).
captain_ahab
2
Wydaje się, że lepszym rozwiązaniem jest to, że wszyscy naukowcy muszą zapisać hipotezę, podstawowe podejście racjonalne, potęgowe i analityczne badania w miejscu PUBLICZNYM PRZED jego uruchomieniem. A następnie ogranicza się do opublikowania tego badania w określony sposób. Jeśli zostanie znaleziony nieoczekiwany interesujący efekt, powinni publicznie zalogować się, a następnie przeprowadzić nowe badanie, które bada ten efekt. Takie podejście, przy jednoczesnym kontrolowaniu wyników fałszywie dodatnich, pozwoliłoby również naukowcom wykazać swoją produktywność bez publikowania nowych efektów.
captain_ahab
7

Natknąłem się na cudowny cytat, który prawie opowiada się za tym samym punktem, ale nie do końca - ponieważ jest to akapit otwierający w podręczniku, który dotyczy głównie statystyk częstokroć i testowania hipotez.

Niestatystycy, jak autor, powszechnie twierdzą, że jeśli wykonasz dobre eksperymenty, statystyki nie są konieczne. Mają rację. [...] Oczywiście szkoda, że ​​robienie dobrych eksperymentów jest trudne. Większość ludzi potrzebuje wszelkiej możliwej pomocy, aby nie dopuścić do tego, że oszukują samych siebie, twierdząc, że ich ulubiona teoria jest poparta obserwacjami, które nic nie robią. A główną funkcją tej sekcji statystyki, która zajmuje się testami istotności, jest zapobieganie, by ludzie robili z siebie głupców. Z tego punktu widzenia funkcją testów istotności jest zapobieganie publikowaniu eksperymentów przez ludzi, a nie zachęcanie ich. Idealnie byłoby, gdyby testy istotności nigdy nie pojawiły się w formie drukowanej, ponieważ zostały użyte, jeśli w ogóle, na wstępnych etapach wykrywania nieodpowiednich eksperymentów,

- David Colquhoun, Wykłady na temat biostatystyki , 1971

ameba
źródło
1
Twój post jest naprawdę komentarzem, a nie odpowiedzią, dlatego powstrzymuję się od głosowania, ale chciałbym podziękować za podzielenie się cytatem. W tym fragmencie jest tak wiele nieporozumień, że wskazanie i obalenie ich wszystkich wymagałoby ogromnego wysiłku (by nie powiedzieć przestrzeni). Jednym słowem jednak przeciwstawieniem się tym twierdzeniom jest „wydajność”. Gdyby wszyscy mieli nieograniczony czas i budżet, moglibyśmy przynajmniej dążyć do „dobrych eksperymentów”. Ale gdy zasoby są ograniczone, nierozsądnym (i kosztownym) byłoby przeprowadzanie tylko „ostatecznych, ... czystych” eksperymentów.
whuber
2
Dziękuję za komentarz, @whuber; Zgadzam się z tym, co mówisz. Muszę jednak dodać, że uważam, iż pociągające jest stwierdzenie, że idealnie dane eksperymentalne powinny być tak przekonujące, aby nadmiar formalnych testów hipotez był zbędny. To nie jest nieosiągalny ideał! W mojej dziedzinie (gdzie p-wartości są wykorzystywane dużo), uważam, że najlepsze prace przekonujące bez nich np ponieważ stanowią one sekwencję kilku eksperymentach wspierając się nawzajem, który razem, oczywiście nie może być fuks statystyczny. Re komentarz: było za długo na komentarz, i uznałem, że jest w porządku jako odpowiedź CW.
ameba
Tak, rozumiem, dlaczego musiał zostać opublikowany jako odpowiedź, dlatego nie głosowałem, aby zamieścić go w komentarzu (co odciąłoby ostatnią część cytatu). Zgadzam się, że ideał nie jest nieosiągalny w szczególnych przypadkach . Zgadzam się również, że warto pamiętać o tym idealnym ideale. Ale jako przewodnik po tym, jak projektować eksperymenty (co jest ogólnie dyscypliną alokacji zasobów), może to być straszny błąd. (Jest to z pewnością dyskusyjne.) Sugestia, że ​​„dobry” eksperyment nigdy nie wymagałby metod statystycznych, jest jednak taka, która nie wytrzyma nawet pobieżnego badania.
whuber
1
Być może jeden ze sposobów czytania, który mówi, że wstępny test istotności, który sugeruje, że substancja stymuluje określoną reakcję fizjologiczną, nie jest już istotny w momencie publikowania badań nad wpływem różnych rodzajów inhibitorów na krzywą dawka-odpowiedź.
Scortchi