Czytam wiele ewolucyjnych / ekologicznych artykułów akademickich, czasami w konkretnym celu, aby zobaczyć, jak statystyki są wykorzystywane „w prawdziwym świecie” poza podręcznikiem. Zwykle traktuję statystyki w gazetach jako ewangelię i używam ich do pomocy w nauce statystycznej. W końcu, jeśli artykuł poświęcił lata na napisanie i przeszedł rygorystyczną recenzję, to z pewnością statystyki będą solidne? Ale w ciągu ostatnich kilku dni zakwestionowałem moje przypuszczenia i zastanawiałem się, jak często podejrzewa się analizę statystyczną opublikowaną w artykułach akademickich? W szczególności można oczekiwać, że osoby z dziedzin takich jak ekologia i ewolucja poświęcają mniej czasu na naukę statystyki, a więcej na naukę swoich dziedzin.
Jak często ludzie znajdują podejrzane statystyki w pracach naukowych?
źródło
Odpowiedzi:
Moje doświadczenie w czytaniu artykułów, które próbują zastosować statystyki z wielu różnych dziedzin (nauki polityczne, ekonomia, psychologia, medycyna, biologia, finanse, nauki aktuarialne, rachunkowość, optyka, astronomia i wiele, wiele innych), to że jakość analiza statystyczna może być w dowolnym miejscu w spektrum, od doskonałych i dobrze wykonanych do rażących bzdur. Widziałem dobrą analizę we wszystkich wymienionych przeze mnie obszarach i dość źle wykonaną analizę w prawie wszystkich z nich.
Niektóre dzienniki są na ogół całkiem dobre, a niektóre mogą przypominać grę w rzutki z zasłoniętymi oczami - możesz dostać większość z nich niezbyt strasznie daleko od celu, ale będzie ich kilka w ścianie, podłodze i suficie. A może kot.
Nie planuję nazywać żadnych winowajców, ale powiem, że widziałem kariery akademickie oparte na niewłaściwym stosowaniu statystyk (tj. Gdzie te same błędy i nieporozumienia powtarzały się w papierze po papierze przez ponad dekadę).
Tak więc radzę, aby czytelnik uważał ; nie ufaj, że redaktorzy i recenzenci wiedzą, co robią. Z czasem możesz mieć poczucie, na których autorach można polegać, aby nie robić nic zbyt szokującego, a na których należy szczególnie ostrożnie traktować. Możesz mieć wrażenie, że niektóre czasopisma mają zazwyczaj bardzo wysoki standard statystyk.
Ale nawet zazwyczaj dobry autor może popełnić błąd, a recenzenci i redaktorzy mogą nie wykryć błędów, które normalnie mogą znaleźć; zazwyczaj dobry dziennik może opublikować wycie.
[Czasami zobaczysz nawet, że naprawdę złe papiery wygrywają nagrody lub wyróżnienia ... co niewiele mówi o jakości ludzi oceniających nagrodę.]
Nie chciałbym zgadywać, jaką część „złych” statystyk mogłem zobaczyć (pod różnymi postaciami i na każdym etapie od zdefiniowania pytania, projektu badania, gromadzenia danych, zarządzania danymi ... aż do analizy i wnioski), ale nie jest wystarczająco mała, aby czuć się komfortowo.
Mógłbym wskazać przykłady, ale nie sądzę, że jest to właściwe forum, aby to zrobić. (Byłoby miło, gdyby nie było to forum dla dobra, że faktycznie, ale potem znowu, to prawdopodobnie się bardzo „upolityczniona” dość szybko, a wkrótce nie spełniać swoje zadania.)
Spędziłem trochę czasu na przeszukiwaniu PLOS ONE ... i znowu, nie zamierzam wskazywać na konkretne dokumenty. Niektóre rzeczy zauważyłem: wygląda na to, że duża część artykułów ma statystyki, prawdopodobnie więcej niż połowa ma testy hipotez. Głównymi zagrożeniami wydają się być liczne testy, albo z wysokim jak 0,05 na każdym (co nie jest automatycznie problemem, o ile rozumiemy, że całkiem kilka naprawdę drobnych efektów może być tak znaczących przez przypadek), albo niesamowicie niski indywidualny poziom istotności, który będzie miał tendencję do dawania niskiej mocy. Widziałem także wiele przypadków, w których około pół tuzina różnych testówα najwyraźniej zostały zastosowane do rozwiązania dokładnie tego samego pytania. To wydaje mi się ogólnie złym pomysłem. Ogólnie rzecz biorąc, standard był całkiem dobry w kilkudziesięciu artykułach, ale w przeszłości widziałem tam absolutnie okropny artykuł.
[Być może mógłbym pozwolić sobie na tylko jeden przykład, pośrednio. To pytanie dotyczy tego, czy ktoś robi coś dość wątpliwego. To daleko od najgorszej rzeczy, jaką widziałem.]
Z drugiej strony widzę (jeszcze częściej) przypadki, w których ludzie zmuszeni są skakać przez wszelkiego rodzaju niepotrzebne obręcze, aby uzyskać akceptację analizy; absolutnie uzasadnione rzeczy do zrobienia nie są akceptowane, ponieważ istnieje „właściwy” sposób robienia rzeczy według recenzenta, redaktora lub kierownika lub po prostu w niewypowiedzianej kulturze danego obszaru.
źródło
Szanuję postawę @ Glen_b dotyczącą właściwego sposobu udzielenia odpowiedzi (i na pewno nie zamierzam jej umniejszać), ale nie mogę się powstrzymać od wskazania szczególnie zabawnego przykładu, który jest blisko mojego domu. Ryzykując upolitycznienie rzeczy i zrobienie z tego celu zadośćuczynienia, polecam Wagenmakers, Wetzels, Boorsboom i Van Der Maas (2011) . Zacytowałem to w powiązanym poście na stronie Cognitive Sciences beta SE ( Jak kognitywistyka wyjaśnia daleką intencjonalność i funkcję mózgu u biorców? ), Która rozważa inny przykład „strzałki uderzającej w kota”. Artykuł Wagenmakers i współpracowników komentuje jednak bezpośrednio „prawdziwego wycie”: został opublikowany w JPSP (jednym z największych czasopism psychologicznych) kilka lat temu. Argumentują też bardziej ogólnie za analizą bayesowską i że:
Prawdopodobnie nie muszę ci mówić, że to nie do końca było głoszeniem chóru. FWIW, istnieje również obalenie (jak zawsze wydaje się, że jest pomiędzy Bayesianami a częstymi; ( Bem, Utts, i Johnson, 2011 )) , ale mam wrażenie, że nie doszło do matematycznej debaty .
Psychologia jako społeczność naukowa ostatnio trochę się kopie, częściowo z powodu tego i innych poważnych niedociągnięć metodologicznych. Inne komentarze tutaj wskazać przypadkach podobnych do tego, co było kiedyś znany jako korelacji voodoo w neurologii społecznej (jak to , że za niepoprawne politycznie BTW papier został tytuł zmieniono;? Vul, Harris, Winkielman, & Pashler, 2009 ). To również przyciągnęło jego obalenie , które można sprawdzić w celu przeprowadzenia dalszej debaty na temat wysoce dyskusyjnych praktyk.
Aby uzyskać jeszcze więcej wiedzy przy (bardziej zdepersonalizowanym) koszcie (pseudo) statystów, którzy źle się zachowują, zobacz nasze 8. obecnie najczęściej oceniane pytanie w CV z innym (co prawda) politycznie niepoprawnym tytułem: „ Jakie są powszechne grzechy statystyczne? ” Jego OP @MikeLawrence przypisuje swoją inspirację równoległemu studium psychologii i statystyki. Jest to jeden z moich ulubionych faworytów, a jego odpowiedzi są bardzo przydatne, aby samemu uniknąć niezliczonych pułapek.
Od strony osobistej spędziłem tutaj większość moich ostatnich pięciu miesięcy, ponieważ niezwykle trudno jest uzyskać solidne statystyki dotyczące niektórych pytań analitycznych. Szczerze mówiąc, wzajemna ocena często nie jest wcale zbyt rygorystyczna, szczególnie w zakresie statystycznej kontroli badań w młodszych naukach ze złożonymi pytaniami i mnóstwem powikłań epistemicznych. Dlatego czułem potrzebę osobistej odpowiedzialności za dopracowanie metod w mojej własnej pracy.
Podczas prezentacji swoich badań pracy doktorskiej , mam poczucie, jak ważna osobista odpowiedzialność za kontrolę statystycznych. Dwóch wyjątkowych psychologów z mojej macierzystej uczelni wtrąciło się, że popełniłem jeden z najbardziej podstawowych grzechów w moich interpretacjach korelacji. Myślałem, że jestem ponad tym i już kilka razy wykładałem na ten temat studentom, ale wciąż tam byłem i zostałem wezwany (wcześnie, dzięki niebiosom). Poszedłem tam, ponieważ badania, które recenzowałem i powielałem, poszły tam! W rezultacie dodałem kilka sekcji do mojej rozprawy wzywało to innych badaczy do przyjęcia związku przyczynowego z quasi-eksperymentalnych badań podłużnych (czasem nawet z korelacji przekrojowych) i ignorowania alternatywnych wyjaśnień przedwcześnie.
Moja rozprawa została zaakceptowana bez rewizji przez moją komisję, w której skład wchodził inny wyjątkowy psychometr i przyszły prezes SPSP (który publikuje JPSP), ale szczerze mówiąc, nie chwalę się tym, że to mówię. Od tego czasu udało mi się wykopać kilka dziur królika własnymi metodami pomimo przejścia zewnętrznego procesu recenzowania z doskonale dobrymi recenzentami. Teraz wpadłem w głąb statystyk, próbując połączyć je z metodami bardziej odpowiednimi do modelowania predykcyjnego ocen Likerta, takimi jak SEM, IRT i analiza nieparametryczna (patrz Testowanie regresji po zmniejszeniu wymiaru). Zdecydowałem się dobrowolnie spędzić lata na pracy, którą prawdopodobnie mógłbym po prostu opublikować w obecnej formie ... Myślę, że mam jeszcze badanie symulacyjne, zanim będę mógł kontynuować sumiennie.
Podkreślam jednak, że jest to opcjonalne - może nawet nadgorliwe i kosztowny luksus pośród kultury publikowania lub niszczenia, która często podkreśla ilość w stosunku do jakości we wczesnych zapisach pracy. Błędne zastosowanie modeli parametrycznych dla ciągłych danych do niezgodnych z założeniami rozkładów danych porządkowych jest zbyt powszechne w mojej dziedzinie, podobnie jak błędna interpretacja i nieprawdziwa interpretacja istotności statystycznej (patrz Uwzględnianie utrwalonych poglądów wartości p ). Mogłabym całkowicie tego uniknąć (na krótką metę) ... i nie jest wcale tak trudno zrobić lepiej. Wydaje mi się, że mam za to kilka ostatnich niesamowitych osiągnięć w programach R, za co dziękuję! Mam nadzieję, że czasy się zmieniają.
Referencje
· Bem, DJ, Utts, J., & Johnson, WO (2011). Czy psychologowie muszą zmienić sposób analizowania swoich danych? Journal of Personality and Social Psychology, 101 (4), 716–719. Źródło: http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P., i Pashler, H. (2009). Zaskakująco wysokie korelacje w badaniach fMRI emocji, osobowości i poznania społecznego. Perspektywy psychologii, 4 (3), 274–290. Źródło: http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D., i Van der Maas, H. (2011). Dlaczego psychologowie muszą zmienić sposób analizowania swoich danych: przypadek psi. Journal of Personality and Social Psychology, 100 , 426–432. Źródło: http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .
źródło
Pamiętam, jak na uniwersytecie kilkakrotnie pytano studentów ostatniego roku nauk społecznych (jeden z nich), jak obliczyć średnią dla swojego projektu, który miał garść punktów danych. (Więc nie mieli problemu z korzystaniem z oprogramowania, tylko z koncepcją matematyki za pomocą kalkulatora).
Po prostu rzucają mi puste spojrzenia, kiedy pytam ich, jakiego rodzaju średniej chcieli.
Jednak wszyscy odczuwali potrzebę umieszczenia niektórych statystyk w swoim raporcie, ponieważ było to już zrobione - spodziewam się, że wszyscy przeczytali 101 artykułów, które miały statystyki bez zastanowienia się, co te statystyki znaczą, jeśli w ogóle.
Oczywiste jest, że badacz, który uczył ich przez 3 lata, nie dbał o poprawność statystyk na tyle, aby zrozpaczać jakiekolwiek zrozumienie wśród uczniów.
(W tym czasie byłem studentem informatyki. Piszę to jako odpowiedź, ponieważ komentarz jest nieco długi).
źródło
Jako żałośnie niepełną listę uważam statystyki najczęściej poprawne w 1) artykułach fizycznych, a następnie 2) artykułach statystycznych i najbardziej nieszczęśliwych w 3) artykułach medycznych. Przyczyny tego są proste i dotyczą kompletności wymagań nałożonych na prototypowy model w każdej dziedzinie.
W pracach fizyki równania i statystyki stosowane muszą zwracać uwagę na jednostki zrównoważone i mieć najczęstsze występowanie związków przyczynowych oraz testowanie w stosunku do standardów fizycznych.
W statystykach 1) jednostki i przyczynowość są czasami ignorowane, założenia są czasami heurystyczne, a testy fizyczne są zbyt często ignorowane, ale równość (lub nierówność), tj. Logika jest ogólnie zachowywana na ścieżce indukcyjnej, gdzie ta ostatnia nie może poprawić niefizyczne założenia.
W medycynie zwykle jednostki są ignorowane, równania i założenia są zazwyczaj heurystyczne, zazwyczaj niesprawdzone i często fałszywe.
Oczywiście dziedzina taka jak mechanika statystyczna ma większe prawdopodobieństwo przyjęcia założeń, które można przetestować, niż, powiedzmy, ekonomii, a to nie odzwierciedla talentów przyszłych autorów w tych dziedzinach. Jest to bardziej związane z tym, ile z tego, co jest robione, jest w rzeczywistości możliwe do przetestowania i ile testów zostało historycznie wykonanych w każdej dziedzinie.
źródło
Każdy artykuł, który obala hipotezę zerową, wykorzystuje bezwartościowe statystyki (zdecydowana większość tego, co widziałem). Ten proces nie może dostarczyć żadnych informacji, które nie zostały jeszcze dostarczone przez wielkość efektu. Ponadto nie mówi nam nic o tym, czy znaczący wynik jest rzeczywiście spowodowany teorią badacza. Wymaga to dogłębnego zbadania danych pod kątem dowodów na pomyłki. Najczęściej, jeśli są obecne, najsilniejszy z tych dowodów jest nawet wyrzucany jako „wartości odstające”.
Nie znam się tak dobrze na ewolucji / ekologii, ale w przypadku badań psychologicznych i medycznych nazwałbym poziom rozumienia statystycznego „poważnie zagubionym” i „przeszkodą dla postępu naukowego”. Ludzie powinni obalać coś przewidywanego przez swoją teorię, a nie jej przeciwieństwo (zerowa różnica / efekt).
Na ten temat napisano tysiące artykułów. Sprawdź kontrowersje hybrydowe NHST.
Edycja: I mam na myśli, że test istotności hipotezy zerowej zerowej ma maksymalnie zerową wartość naukową. Ta osoba uderza w gwóźdź:
http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/
Także: Paul Meehl. 1967. Testowanie teorii w psychologii i fizyce: paradoks metodologiczny
Edycja 3:
Jeśli ktoś ma argumenty za użytecznością słomianego NHST, które nie wymagają myślenia, „odrzuć hipotezę, że tempo ocieplenia jest takie samo, ale NIE bierz tego, by sugerować, że tempo ocieplenia nie jest takie samo” jest racjonalne oświadczenie, chętnie przyjmę twoje komentarze.
Edycja 4:
Co miał na myśli Fisher przez następujący cytat? Czy to sugeruje, że pomyślał: „Jeśli model / teoria A jest niezgodna z danymi, możemy powiedzieć, że A jest fałszem, ale nic o tym, czy A nie jest prawdziwe”?
Karl Pearson i RA Fisher o testach statystycznych: A 1935 Exchange from Nature
Czy to dlatego, że zakładał, że ludzie będą próbować unieważnić prawdopodobne hipotezy, a nie słomianie? A może się mylę?
źródło