Reguły zatrzymania wpływają na związek między wartościami P a wskaźnikami błędów związanymi z decyzjami. Niedawny artykuł Simmonsa i in. W 2011 r . Termin „ stopnie swobody badacza” opisuje zbiór zachowań, które uważają za odpowiedzialne za wiele raportów w literaturze psychologicznej, które okazały się nie do odtworzenia.
Spośród tych zachowań interesują mnie obecnie opcjonalne reguły zatrzymania lub niezadeklarowane analizy okresowe. Opisuję ich wpływ na poziom błędów wśród moich uczniów, ale wydaje się, że nie są one opisane w podręcznikach, których używają moi uczniowie (lub nie posługiwać się!). W głównej księgarni na moim uniwersytecie znajduje się czternaście podręczników statystycznych skierowanych do studentów na poziomie podstawowym w różnych dyscyplinach, takich jak biologia, biznes, inżynieria itp. Tylko jeden z tych tekstów zawierał element indeksu „testy sekwencyjne”, a żaden nie miał elementu indeksu „ reguła zatrzymania ”.
Czy istnieje podręcznik statystyki na poziomie wprowadzającym, który wyjaśnia kwestię opcjonalnych reguł zatrzymywania?
Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Psychologia fałszywie dodatnia: nieujawniona elastyczność w gromadzeniu i analizie danych pozwala prezentować wszystko jako znaczące . Psychological Science, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632
źródło
Odpowiedzi:
Nie możesz mieć reguły zatrzymywania bez pojęcia o twojej dystrybucji i wielkości efektu - czego nie znasz a priori.
Również tak, musimy skupić się na wielkości efektu - i nigdy nie uważano za poprawne uwzględnienie tylko wartości p, i na pewno nie powinniśmy pokazywać tabel lub wykresów, które pokazują wartości p lub wartości F, a nie wielkości efektu.
Występują problemy z tradycyjnym testowaniem wnioskowania hipotez statystycznych (co według Cohena jest warte jego akronimu, a Fisher i Pearson obróciliby się w grobach, gdyby zobaczyli wszystko, co dzieje się dziś pod ich gwałtownie przeciwstawionymi nazwami).
Aby wyznaczyć N, musisz już określić docelowe znaczenie i próg mocy, a także poczynić wiele założeń dotyczących rozkładu, a w szczególności musisz także określić wielkość efektu, który chcesz ustalić. Indolering ma rację, że powinien to być punkt wyjścia - jaki minimalny rozmiar efektu byłby opłacalny!
„Nowe statystyki” opowiadają się za pokazywaniem wielkości efektu (w stosownych przypadkach jako sparowanej różnicy), wraz z powiązanymi odchyleniami standardowymi lub wariancjami (ponieważ musimy zrozumieć rozkład) oraz odchyleniami standardowymi lub przedziałami ufności (ale ta ostatnia jest już zablokowanie wartości p i decyzja o tym, czy przewidujesz kierunek, czy zakład w jedną stronę). Ale ustalenie minimalnego efektu określonego znaku za pomocą naukowej prognozy, wyjaśnia to jasno - chociaż przednaukową wartością domyślną jest wykonywanie prób i błędów i po prostu szukanie różnic. Ale i tak przyjęliście założenia dotyczące normalności.
Innym podejściem jest stosowanie wykresów pudełkowych jako podejścia nieparametrycznego, ale konwencje dotyczące wąsów i wartości odstających są bardzo zróżnicowane, a nawet same powstają w założeniach dystrybucyjnych.
Problem zatrzymania rzeczywiście nie jest problemem indywidualnego ustawienia badacza lub braku ustawienia N, ale że mamy całą społeczność tysięcy naukowców, gdzie 1000 to znacznie więcej niż 1 / alfa dla tradycyjnego poziomu 0,05. Obecnie proponowana jest odpowiedź na dostarczenie statystyk podsumowujących (średnia, stddev, stderr - lub odpowiadające im „wersje nieparametryczne - mediana itp. Jak w przypadku wykresu pudełkowego) w celu ułatwienia metaanalizy i przedstawienia połączonych wyników ze wszystkich eksperymentów, niezależnie od tego, czy mają miejsce osiągnąć określony poziom alfa lub nie.
Ściśle związany jest problem wielokrotnego testowania, który jest równie trudny, a eksperymenty są utrzymywane zbyt uproszczone w imię zachowania mocy, podczas gdy proponowane są nadmiernie złożone metody analizy wyników.
Nie wydaje mi się, aby mógł istnieć rozdział w książce, który ostatecznie poradziłby sobie z tym, ponieważ wciąż nie mamy pojęcia, co robimy ...
W tej chwili najlepszym podejściem jest prawdopodobnie dalsze stosowanie tradycyjnych statystyk najbardziej odpowiednich do problemu, w połączeniu z wyświetlaniem statystyk podsumowujących - najważniejszy jest efekt i błąd standardowy, a N jest najważniejsze. Zastosowanie przedziałów ufności jest w zasadzie równoważne z odpowiednim testem T, ale umożliwia bardziej sensowne porównywanie nowych wyników z opublikowanymi, a także pozwala na etos zachęcający do odtwarzalności oraz publikację odtworzonych eksperymentów i metaanaliz.
Jeśli chodzi o teoretykę informacji lub podejście bayesowskie, używają różnych narzędzi i przyjmują różne założenia, ale wciąż nie mają wszystkich odpowiedzi, a ostatecznie napotykają te same problemy lub gorzej, ponieważ wnioskowanie bayesowskie wycofuje się z robienia ostatecznych odpowiedz i po prostu przytoczy dowody względne lub nieobecne.
Uczenie maszynowe ma również wyniki, które należy wziąć pod uwagę pod względem znaczenia - często z CI lub T-testem, często z wykresami, miejmy nadzieję raczej parując niż porównując i używając odpowiednio skompensowanych wersji, gdy dystrybucje się nie zgadzają. Ma również kontrowersje dotyczące ładowania początkowego i weryfikacji krzyżowej, a także stronniczości i wariancji. Najgorsze jest to, że ma tendencję do generowania i testowania miriad alternatywnych modeli poprzez dokładne sparametryzowanie wszystkich algorytmów w jednym z wielu zestawów narzędzi, zastosowanych do starannie zarchiwizowanych zestawów danych, aby umożliwić nieograniczone wielokrotne testowanie. Najgorsze jest nadal w ciemnościach, używając do oceny dokładności lub jeszcze gorzej F-pomiaru, a nie metod korygujących przypadek.
Przeczytałem dziesiątki artykułów na te tematy, ale nie znalazłem niczego całkowicie przekonującego - z wyjątkiem negatywnych badań lub artykułów z metaanalizy, które wydają się wskazywać, że większość badaczy nie obsługuje i nie interpretuje statystyk poprawnie w odniesieniu do jakiegokolwiek „standardu” ”, stary lub nowy. Moc, wielokrotne testowanie, zmiana rozmiaru i wczesne zatrzymywanie, interpretacja standardowych błędów i przedziały ufności ... to tylko niektóre z problemów.
Proszę, zestrzel mnie - chciałbym udowodnić, że się mylę! Moim zdaniem jest dużo wody do kąpieli, ale nie znaleźliśmy jeszcze dziecka! Na tym etapie żadne skrajne poglądy lub podejście do marki nie wydaje się obiecujące jako odpowiedź, a ci, którzy chcą wyrzucić wszystko inne, prawdopodobnie stracili dziecko.
źródło
Nie wierzę, że opcjonalne „reguły zatrzymywania” to termin techniczny w odniesieniu do optymalnego zatrzymywania. Wątpię jednak, aby wiele dogłębnej dyskusji na ten temat znaleźć można w podręcznikach statystyki psychologii wstępnej.
Cyniczne uzasadnienie tego jest takie, że wszyscy studenci nauk społecznych mają słabe umiejętności matematyczne. Lepszą odpowiedzią, IMHO, jest to, że proste testy t nie są odpowiednie dla większości eksperymentów nauk społecznych. Trzeba spojrzeć na siłę efektu i dowiedzieć się, czy to rozwiąże różnice między grupami. Pierwsze może wskazywać, że drugie jest możliwe, ale to wszystko, co może zrobić.
Środki wydatków socjalnych, regulacje państwowe i urbanizacja mają statystycznie istotne związki ze środkami zachowań religijnych. Jednak samo stwierdzenie wartości p określa ramy testu w związku przyczynowym typu „wszystko albo nic”. Zobacz:
Wyniki zarówno wydatków socjalnych, jak i urbanizacji mają statystycznie istotne wartości p, ale wydatki socjalne są znacznie silniej skorelowane. To, że wydatki na opiekę społeczną wykazują tak silny związek z innymi miernikami religijności ( wskaźnik niereligijny oraz komfort religijny ), dla których urbanizacja nawet nie osiąga wartości p
< .10
, co sugeruje, że urbanizacja nie wpływa na ogólne przekonania religijne. Należy jednak pamiętać, że nawet wydatki socjalne nie wyjaśniają Irlandii ani Filipin, co pokazuje, że niektóre inne efekty są stosunkowo silniejsze niż wydatki socjalne .Poleganie na „regułach zatrzymywania” może prowadzić do fałszywych wyników pozytywnych, szczególnie w przypadku niewielkiej liczebności psychologii. Psychologia jako dziedzina jest naprawdę powstrzymywana przez tego rodzaju statystycznych shenaniganów. Jednak oparcie całej naszej wiary na arbitralnej wartości p jest również dość głupie. Nawet jeśli wszyscy wysłany nasze przykładowe rozmiary i oświadczenia hipoteza czasopiśmie przed przeprowadzeniem eksperymentu, będziemy nadal napotkasz fałszywych alarmów jako akademickiego jest zbiorowo trolling istotności statystycznej.
Właściwą czynnością nie jest zatrzymanie eksploracji danych, właściwą rzeczą jest opisanie wyników w odniesieniu do ich efektu . Teorie ocenia się nie tylko na podstawie dokładności ich prognoz, ale także na podstawie ich przydatności . Bez względu na to, jak dobra jest metodologia badań, lek, który zapewnia poprawę o 1% w objawach przeziębienia, nie jest wart kosztu pakowania w kapsułkę.
Aktualizacja Aby być jasnym, całkowicie zgadzam się, że naukowcy społeczni powinni mieć wyższy standard: musimy poprawić edukację, dać naukowcom lepsze narzędzia i podnieść poziomy istotności do 3-sigma. Próbuję podkreślić niedostatecznie reprezentowany punkt: ogromna większość badań psychologicznych jest bezwartościowa, ponieważ wielkość efektu jest tak mała.
Ale dzięki Amazon Turk mogę odpowiednio zrekompensować prowadzenie 10 badań parralelowych i bardzo tanio utrzymać poziom ufności> 3 sigma. Ale jeśli siła efektu jest niewielka, istnieją znaczące zagrożenia dla zewnętrznej ważności. Skutek manipulacji może być spowodowany wiadomością, uporządkowaniem pytań lub ...
Nie mam czasu na esej, ale problemy z jakością w naukach społecznych wykraczają daleko poza kiepskie metody statystyczne.
źródło
W cytowanym artykule nie ma wzmianki o przestrzeganiu zasad i wydaje się, że ma niewielki związek z bieżącym problemem. Ich jedyną, bardzo niewielką zależnością jest relacja wielokrotnego testowania, która jest pojęciem statystycznym , a nie naukowym.
W piśmiennictwie z badań klinicznych okaże się, że reguły dotyczące zatrzymywania są rygorystyczne, z wyraźną informacją o warunkach, w których badanie będzie „wyglądać”: na podstawie roku kalendarzowego lub liczby osobolat, ustawienia poziomu alfa i wiąże się również z efektami „skutecznych” i „szkodliwych” zabiegów. Rzeczywiście, powinniśmy uważać rygorystyczne prowadzenie takich badań za przykład dobrze wykonanej nauki . FDA posunę się nawet do stwierdzenia, że po znaczącym ustaleniu skuteczności innej niż wcześniej określona, należy przeprowadzić drugie badanie, aby potwierdzić te ustalenia. Pozostaje to problemem tak bardzo, że Thomas Flemming zaleca, aby wszystkie badania kliniczne tego wymagałyzatwierdzone w całkowicie niezależnym drugim badaniu potwierdzającym , przeprowadzonym przez oddzielne podmioty. Tak zły jest problem fałszywie dodatnich błędów przy rozważaniu życia i opieki medycznej.
Z pozornie nieszkodliwym nadzorem inne dziedziny nauki utrwalają złą etykę w badaniach. Rzeczywiście, nauki społeczne nie wpływają na leczenie, jakie otrzymują ludzie, zajmują się streszczeniami i modelami konceptualnymi, które tylko pogłębiają nasze rozumienie wzajemnej zależności teorii i obserwacji. Jednak każdemu konsumentowi nauk społecznych, świeckim lub naukowym, często przedstawiane są sprzeczne ustalenia: czekolada jest dla ciebie dobra, czekolada jest dla ciebie zła (czekolada jest dla ciebie dobra, nawiasem mówiąc, cukier i tłuszczw czekoladzie jest dla ciebie zła), seks jest dla ciebie dobry, małżeństwo cię smuci / małżeństwo cię uszczęśliwia. Ta dziedzina jest zaniedbana przy złej nauce. Nawet ja jestem winny pracy nad analizami, w których byłem niezadowolony z silnie przyczynowego języka, który był następnie związany z silnymi zaleceniami dotyczącymi polityki i wsparcia federalnego, całkowicie nieuzasadnionymi, a jednak opublikowanymi.
Artykuł Simmonsa skutecznie opisuje, w jaki sposób ujawnienie pomogłoby w wyraźnym wyrażeniu rodzajów „skrótów”, jakie badacze wprowadzają w badaniach społecznych. Simmons podaje w tabeli 1 przykład, w jaki sposób pogłębianie danych radykalnie zwiększa fałszywie dodatnie wskaźniki błędów w sposób typowy dla nieetycznych naukowców „poszukujących ustaleń”. Podsumowanie ustaleń w tabeli 2 opisuje często pomijane aspekty artykułów, które mogłyby znacznie poprawić zrozumienie, w jaki sposób przeprowadzono więcej niż jedną analizę.
Podsumowując, zasady zatrzymywania byłyby właściwe tylko przy założonej hipotezie: są one etycznie uzasadnione i wymagają metod statystycznych. Artykuł Simmonsa przyznaje, że wiele badań nawet tego nie przyznaje i jest to etycznie niestosowne, ale język statystyczny przekonuje, dlaczego dokładnie jest źle.
źródło