W dniu 25 lutego 2015 r. Czasopismo Basic and Applied Social Psychology opublikowało artykuł wstępny zakazujący wartości i przedziałów ufności we wszystkich przyszłych artykułach.
Mówią w szczególności (formatowanie i podkreślanie są moje):
[...] przed publikacją autorzy będą musieli usunąć wszelkie pozostałości z NHSTP [procedura testowania znaczenia hipotezy zerowej] ( wartości wartości wartości , stwierdzenia o różnicach „znaczących” lub ich braku , i tak dalej).
Analogicznie do tego, w jaki sposób NHSTP nie zapewnia prawdopodobieństwa hipotezy zerowej, która jest potrzebna do uzasadnienia jej odrzucenia, przedziały ufności nie stanowią mocnego dowodu, aby stwierdzić, że interesujący parametr populacji prawdopodobnie mieści się w podanym zakresie interwał. Dlatego przedziały ufności są również zakazane w BASP.
[...] w odniesieniu do procedur bayesowskich zastrzegamy sobie prawo do wydawania indywidualnych orzeczeń, dlatego też procedury bayesowskie nie są wymagane ani zakazane od BASP.
[...] Czy wymagane są wnioskowania statystyczne? - Nie [...] Jednak BASP będzie wymagał silnych statystyk opisowych, w tym rozmiarów efektów.
Nie omawiajmy tutaj problemów i niewłaściwego wykorzystania wartości ; jest już wiele doskonałych dyskusji na temat CV, które można znaleźć, przeglądając znacznik p-value . Krytyka wartości często idzie w parze z poradą dotyczącą zgłaszania przedziałów ufności dla parametrów będących przedmiotem zainteresowania. Na przykład w tej bardzo dobrze uzasadnionej odpowiedzi @gung sugeruje zgłaszanie wielkości efektów z przedziałami ufności wokół nich. Ale ten dziennik zakazuje również przedziałów ufności.
Jakie są zalety i wady takiego podejścia do przedstawiania danych i wyników eksperymentalnych w porównaniu do „tradycyjnego” podejścia z wartościami , przedziałami ufności i znaczną / nieznaczną dychotomią? Reakcja na ten zakaz wydaje się w większości negatywna; więc jakie są wady? Amerykańskie Stowarzyszenie Statystyczne opublikowało nawet krótki zniechęcający komentarz na temat tego zakazu, mówiąc, że „ta polityka może mieć swoje własne negatywne konsekwencje”. Jakie mogą być te negatywne konsekwencje?
Lub, jak to ujął @whuber, czy takie podejście powinno być ogólnie propagowane jako paradygmat badań ilościowych? A jeśli nie to dlaczego nie?
PS. Zauważ, że moje pytanie nie dotyczy samego zakazu ; chodzi o sugerowane podejście. Nie pytam też o wnioskowanie częstokrzyskie vs. bayesowskie. Artykuł wstępny jest dość negatywny także w odniesieniu do metod bayesowskich; więc chodzi przede wszystkim o stosowanie statystyk, a nie o korzystanie ze statystyk w ogóle.
Odpowiedzi:
Pierwsze zdanie bieżącego artykułu wstępnego z 2015 r., Do którego prowadzi link PO, brzmi:
(mój nacisk)
Innymi słowy, dla redaktorów jest już udowodnionym naukowym faktem, że „testowanie znaczenia hipotezy zerowej” jest nieważne, a artykuł redakcyjny z 2014 r. Tylko to podkreślił, podczas gdy obecny artykuł redakcyjny z 2015 r. Po prostu wdraża ten fakt.
Niewłaściwe wykorzystanie (nawet złośliwie) NHSTP jest rzeczywiście dobrze omówione i udokumentowane. I nie jest niczym niezwykłym w historii ludzkości, że „rzeczy są zakazane”, ponieważ stwierdzono, że po tym wszystkim, co powiedziano i zrobiono, były nadużywane bardziej niż dobrze wykorzystywane (ale czy nie powinniśmy tego statystycznie testować?). Może to być „drugie najlepsze” rozwiązanie, aby ograniczyć to, co średnio (statystyki wnioskowania) doszło do strat, a nie zysków, i dlatego przewidujemy (statystyki wnioskowania), że będzie to również szkodliwe w przyszłości.
Ale zapał ujawnił za treść zdaniu pierwszym, czyni to wyglądać -exactly jako fanatyka podejścia zamiast chłodnej głowie decyzji wyciąć rękę, która ma tendencję do kradzieży zamiast ofertą. Jeśli przeczytasz starszy o rok artykuł wstępny wspomniany w powyższym cytacie (DOI: 10.1080 / 01973533.2014.865505), zobaczysz, że jest to tylko część zmiany zasad czasopisma przez nowego redaktora.
Przewijają artykuł redakcyjny i piszą
Wydaje się więc, że ich wniosek związany z ich dyscypliną jest taki, że hipotezy zerowe są odrzucane „zbyt często”, a zatem domniemane ustalenia mogą zyskać fałszywe znaczenie statystyczne. To nie jest ten sam argument, co „nieważne” zdanie w pierwszym zdaniu.
Tak więc, aby odpowiedzieć na to pytanie, oczywiste jest, że dla redaktorów czasopisma ich decyzja jest nie tylko rozsądna, ale już opóźniona w realizacji: wydaje się, że myślą, że wycinają część statystyk, która stała się szkodliwa, utrzymując korzystne części - nie wydają się wierzyć, że jest tu coś, co wymaga zastąpienia czymś „równoważnym”.
Z epistemologicznego punktu widzenia jest to przypadek, w którym naukowcy nauk społecznych częściowo wycofują się z próby uczynienia swojej dyscypliny bardziej obiektywną w zakresie jej metod i wyników za pomocą metod ilościowych, ponieważ doszli do wniosku (jak?), Że ostatecznie , próba spowodowała „więcej złego niż dobrego”. Powiedziałbym, że jest to bardzo ważna kwestia, która w zasadzie mogła się zdarzyć, i która wymagałaby lat pracy, aby zademonstrować ją „ponad wszelką wątpliwość” i naprawdę pomóc w dyscyplinie. Ale tylko jeden lub dwa artykuły redakcyjne i opublikowane artykuły najprawdopodobniej (statystyki wnioskowania) wywołają wojnę domową.
Ostatnie zdanie artykułu wstępnego z 2015 r. Brzmi:
źródło
Uważam, że zakaz testowania hipotez jest świetnym pomysłem, z wyjątkiem kilku wybranych hipotez „egzystencjalnych”, np. Testowanie hipotezy zerowej, że nie ma postrzegania pozazmysłowego, w którym wszyscy musieliby wykazać, że istnieją dowody na istnienie ESP, jest nieprzypadkowy . Wydaje mi się jednak, że czasopismo nie rozumie, że głównym powodem złych badań w dziedzinie psychologii jest zastosowanie progu wartościW psychologii i większości innych dziedzin wykazano, że znaczna część gier hazardowych osiąga . Obejmuje to podstawianie hipotez, usuwanie obserwacji i podzbiór danych. Najpierw powinny zostać zakazane progi.P < 0,05P P<0.05
Zakaz stosowania przedziałów ufności jest również przesadzony, ale nie z powodów, które podali inni. Przedziały ufności są użyteczne tylko wtedy, gdy błędnie interpretuje się je jako wiarygodne przedziały bayesowskie (dla odpowiednich priorytetów nieinformacyjnych). Ale nadal są przydatne. Fakt, że ich dokładna interpretacja często prowadzi do zamieszania, oznacza, że musimy „wyjść z Dodge” i pójść do szkoły bayesowskiej lub prawdopodobieństwa. Ale przydatne wyniki można uzyskać, błędnie interpretując stare dobre limity ufności.
Szkoda, że redaktorzy czasopisma źle zrozumieli statystyki bayesowskie i nie wiedzą o istnieniu wnioskowania o czystym prawdopodobieństwie. To, czego szukają, może być łatwo zapewnione przez bayesowskie dystrybucje boczne przy użyciu nieco sceptycznych przeorów.
źródło
Widzę to podejście jako próbę rozwiązania problemu niezdolności psychologii społecznej do odtworzenia wielu wcześniej opublikowanych „znaczących odkryć”.
Jego wady to:
że nie zajmuje się wieloma czynnikami prowadzącymi do fałszywych efektów. Na przykład,
A) Ludzie nadal mogą przeglądać swoje dane i przestać przeprowadzać badania, gdy rozmiar efektu wydaje im się wystarczająco duży, aby wzbudzić zainteresowanie.
B) Duże rozmiary efektów nadal będą miały dużą moc w retrospektywnych ocenach mocy.
C) Ludzie nadal będą szukać ciekawych i dużych efektów (testowanie szeregu hipotez w eksperymencie, a następnie zgłaszanie tej, która się pojawiła) lub
D) udawaj, że przez cały czas oczekiwano nieoczekiwanego dziwnego efektu.
Czy nie należy podejmować wysiłków, aby najpierw rozwiązać te problemy?
Jako pole idące naprzód sprawi, że przegląd poprzednich odkryć będzie okropny. Nie ma możliwości ilościowej oceny wiarygodności różnych badań. Jeśli w każdym czasopiśmie wdrożono to podejście, wielu badaczy społecznych twierdzi, że istnieją dowody na X, gdy nie jest całkowicie jasne, jak wiarygodny jest X, a naukowcy spierają się o to, jak interpretować opublikowany efekt lub argumentują, czy jest to ważne, czy warte rozmawiać o. Czy nie o to chodzi w statystykach? Aby zapewnić spójny sposób oceny liczb. Moim zdaniem to nowe podejście spowodowałoby bałagan, gdyby zostało szeroko wdrożone.
Ta zmiana nie zachęca badaczy do przesyłania wyników badań z małymi rozmiarami efektów, więc tak naprawdę nie odnosi się do efektu szuflady plików (czy też zamierzają opublikować wyniki z dużymi wartościami n niezależnie od wielkości efektu?). Gdybyśmy opublikowali wszystkie wyniki starannie zaprojektowanych badań, to mimo że wiarygodność wyników poszczególnych badań może być niepewna, metaanalizy i przeglądy badań, które dostarczyły analizy statystyczne, znacznie lepiej sprawdzą się w rozpoznaniu prawdy.
źródło
Natknąłem się na cudowny cytat, który prawie opowiada się za tym samym punktem, ale nie do końca - ponieważ jest to akapit otwierający w podręczniku, który dotyczy głównie statystyk częstokroć i testowania hipotez.
źródło