Jestem studentem psychologii, a ponieważ prowadzę coraz więcej niezależnych badań statystycznych, coraz bardziej zdumiewa mnie nieadekwatność mojego formalnego szkolenia. Zarówno doświadczenia osobiste, jak i z drugiej ręki sugerują, że niedostatek rygorystyczności statystycznej w szkoleniach licencjackich i magisterskich jest dość powszechny w psychologii. Jako taki, pomyślałem, że byłoby przydatne dla niezależnych uczniów, takich jak ja, stworzyć listę „grzechów statystycznych”, zestawiając praktyki statystyczne nauczane oceniania studentów jako standardowe praktyki, które w rzeczywistości są albo zastępowane przez przełożonego (mocniejszego, albo elastycznego, albo solidne itp.) nowoczesne metody lub szczerze mówiąc nieważne. Przewidując, że inne dziedziny mogą również doświadczać podobnego stanu rzeczy, proponuję wiki społeczności, w której możemy zebrać listę grzechów statystycznych z różnych dyscyplin.
227
Odpowiedzi:
Niezapoznanie się z (wykreśleniem) danych.
źródło
Większość interpretacji wartości p jest grzeszna! Konwencjonalne stosowanie wartości p jest bardzo wadliwe; fakt, który moim zdaniem podważa standardowe podejście do nauczania testów hipotez i testów istotności.
Haller i Krause odkryli, że instruktorzy statystyczni mają prawie taką samą szansę, jak uczniowie, błędnie interpretują wartości p. (Weź udział w teście i sprawdź, jak sobie radzisz.) Steve Goodman ma dobry powód, aby odrzucić konwencjonalne (niewłaściwe) użycie wartości p na rzecz prawdopodobieństw. Warto też zajrzeć do papieru Hubbarda.
Haller i Krauss. Błędne interpretacje znaczenia: problem, który uczniowie dzielą ze swoimi nauczycielami . Methods of Psychological Research (2002) vol. 7 (1) s. 1-20 ( PDF )
Hubbard i Bayarri. Zamieszanie w zakresie miar dowodów (p) w porównaniu do błędów (α) w klasycznych testach statystycznych . The American Statistician (2003) vol. 57 (3)
Dobry człowiek. W kierunku statystyki medycznej opartej na dowodach. 1: Błąd wartości P. Ann Intern Med (1999) vol. 130 (12) s. 995–1004 ( PDF )
Zobacz także:
Wagenmakers, EJ. Praktyczne rozwiązanie wszechobecnych problemów wartości p. Biuletyn i przegląd psychonomiczny, 14 (5), 779–804.
dla niektórych jasnych przypadków, w których nawet nominalnie „poprawna” interpretacja wartości p została niepoprawna z powodu wyborów dokonanych przez eksperymentatora.
Aktualizacja (2016) : W 2016 r. Amerykańskie Stowarzyszenie Statystyczne wydało oświadczenie w sprawie wartości p, patrz tutaj . Była to poniekąd odpowiedź na „zakaz wartości p” wydany przez czasopismo psychologiczne około rok wcześniej.
źródło
Najbardziej niebezpieczną pułapką, na którą natrafiłem podczas pracy nad modelem predykcyjnym, jest nie rezerwowanie zestawu danych testowych wcześnie, aby poświęcić je „ostatecznej” ocenie wydajności.
Bardzo łatwo jest przecenić dokładność predykcyjną swojego modelu, jeśli masz szansę jakoś wykorzystać dane testowe podczas dostrajania parametrów, wybierania wcześniejszego, wybierania kryterium zatrzymania algorytmu uczenia się ...
Aby uniknąć tego problemu, przed rozpoczęciem pracy nad nowym zestawem danych należy podzielić dane w następujący sposób:
Następnie podziel swój zestaw programistyczny na „zestaw programistyczny szkolenia” i „zestaw programistyczny do testowania”, w którym za pomocą zestawu programistycznego do szkolenia trenujesz różne modele o różnych parametrach i wybierasz najlepsze w zależności od wydajności zestawu testowego. Można również wyszukiwać w siatce z weryfikacją krzyżową, ale tylko na zestawie programistycznym. Nigdy nie używaj zestawu ewaluacyjnego, gdy wybór modelu nie jest w 100% gotowy.
Gdy jesteś pewien wyboru i parametrów modelu, wykonaj 10-krotną weryfikację krzyżową zestawu ewaluacyjnego, aby mieć pojęcie o „rzeczywistej” dokładności predykcyjnej wybranego modelu.
Również jeśli dane są tymczasowe, najlepiej wybrać podział programistyczny / oceniający na kod czasowy: „Trudno jest przewidzieć - szczególnie na przyszłość”.
źródło
Raportowanie wartości p podczas eksploracji danych (wykrywanie hipotez) zamiast statystyk (testowanie hipotez).
źródło
Testowanie hipotez porównaniu do H 1 : μ ≠ 0 (na przykład w ustawieniu Gaussa)H0:μ=0 H1:μ≠0
uzasadnić, że w modelu (tj. mieszanka „ H 0 nie jest odrzucany” i „ H 0 to prawda”).μ=0 H0 H0
Bardzo dobrym przykładem tego rodzaju (bardzo złego) rozumowania jest testowanie, czy wariancje dwóch Gaussów są równe (czy nie) przed testowaniem, czy ich średnia jest równa czy nie przy założeniu równej wariancji.
Kolejny przykład występuje, gdy testujesz normalność (w porównaniu z normalnością) w celu uzasadnienia normalności. Czy każdy statystyk to zrobił w życiu? to jest baaad :) (i powinno zachęcać ludzi do sprawdzania odporności na nie Gaussa)
źródło
Kilka błędów, które mnie niepokoją:
Zakładając, że obiektywne estymatory są zawsze lepsze niż estymatory stronnicze.
Zakładając, że wysoki oznacza dobry model, niskie R 2 oznacza zły model.R2) R2)
Niepoprawna interpretacja / zastosowanie korelacji.
Oszacowania punktu raportowania bez błędu standardowego.
Używanie metod zakładających pewien rodzaj wielowymiarowej normalności (takich jak liniowa analiza dyskryminacyjna), gdy dostępne są bardziej niezawodne, lepiej działające metody nie / półparametryczne.
Wykorzystanie wartości p jako miary siły między predyktorem a odpowiedzią, a nie jako miara ilości dowodów na istnienie pewnego związku.
źródło
Dychotomizacja ciągłej zmiennej predykcyjnej w celu „uproszczenia” analizy lub rozwiązania „problemu” nieliniowości w wyniku działania predyktora ciągłego.
źródło
Naprawdę nie odpowiadam na pytanie, ale jest cała książka na ten temat:
Phillip I. Good, James William Hardin (2003). Typowe błędy w statystykach (i jak ich uniknąć). Wiley. ISBN 9780471460688
źródło
interpretowania
Probability(data | hypothesis)
jakProbability(hypothesis | data)
bez stosowania Twierdzenie Bayesa.źródło
Rytualizowane statystyki.
Ten „grzech” ma miejsce, gdy zastosujesz wszystko, czego się nauczyłeś, niezależnie od jego stosowności, ponieważ tak właśnie się dzieje. Są to statystyki rote, jeden poziom powyżej, dzięki czemu maszyna może wybrać statystyki dla ciebie.
Przykładami są wprowadzenie do studentów na poziomie statystycznym, którzy próbują dopasować wszystko do swojego skromnego testu t i zestawu narzędzi ANOVA, lub za każdym razem, gdy pojawia się pytanie „Och, mam dane kategoryczne, powinienem użyć X”, nigdy nie przestając patrzeć na dane lub rozważ zadane pytanie.
Odmiana tego grzechu polega na użyciu kodu, którego nie rozumiesz, aby uzyskać wynik, który rozumiesz tylko w pewien sposób, ale znasz „piątą kolumnę, około 8 rzędów w dół” lub jakąkolwiek odpowiedź, której powinieneś szukać.
źródło
Może regresja krokowa i inne formy testowania po wyborze modelu.
Wybranie zmiennych niezależnych do modelowania bez hipotez a priori za istniejącymi relacjami może prowadzić do logicznych błędów lub fałszywych korelacji, między innymi błędami.
Przydatne odniesienia (z biologicznego / biostatystycznego punktu widzenia):
Kozak, M., i Azevedo, R. (2011). Czy zastosowanie stopniowego wyboru zmiennych do budowy modeli sekwencyjnej analizy ścieżki ma sens? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x
Whittingham, MJ, Stephens, P., Bradbury, RB i Freckleton, RP (2006). Dlaczego nadal stosujemy modelowanie krokowe w ekologii i zachowaniu? Dziennik ekologii zwierząt, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x
Frank Harrell, Strategie Modelowania Regresji , Springer 2001.
źródło
Coś, co widzę w zaskakujących ilościach w artykułach konferencyjnych, a nawet w czasopismach, dokonuje wielu porównań (np. Korelacji dwuwymiarowych), a następnie zgłasza wszystkie p <0,05 jako „znaczące” (ignorując na chwilę poprawność lub pomyłkę tego).
Wiem również, co masz na myśli o absolwentach psychologii - ukończyłem doktorat z psychologii i wciąż dopiero się uczę. Jest całkiem źle, myślę, że psychologia musi poważniej potraktować ilościową analizę danych, jeśli zamierzamy ją wykorzystać (co oczywiście powinniśmy)
źródło
Badawczy, ale udający potwierdzającego. Może się to zdarzyć, gdy ktoś modyfikuje strategię analizy (tj. Dopasowanie modelu, wybór zmiennych itp.) Sterowany danymi lub wynikami, ale nie określa tego otwarcie, a następnie zgłasza jedynie wyniki „najlepsze” (tj. Z najmniejszymi wartościami p), tak jakby to była jedyna analiza. Odnosi się to również do tego, czy wielokrotne testy wykonane przez Chrisa Beeleya skutkują wysokim odsetkiem wyników fałszywie dodatnich w raportach naukowych.
źródło
To, co widzę dość często i zawsze szlifuje moje koła zębate, to założenie, że statystycznie istotny główny efekt w jednej grupie i nieistotny statystycznie główny efekt w innej grupie implikuje znaczący efekt x interakcja z grupą.
źródło
Zwłaszcza w epidemiologii i zdrowiu publicznym - stosowanie arytmetyki zamiast skali logarytmicznej przy zgłaszaniu wykresów względnych miar asocjacji (współczynnik ryzyka, iloraz szans lub współczynnik ryzyka).
Więcej informacji tutaj .
źródło
Korelacja implikuje związek przyczynowy, który nie jest tak zły, jak przyjęcie hipotezy zerowej.
źródło
A and B are correlated
zwykle tylko widzi,A causes B
ale nieB causes A
... (i zapomina o tym,C
jakie przyczynyA
iB
)Analiza danych prędkości (dokładność itp.) Przy użyciu ANOVA, zakładając w ten sposób, że dane prędkości mają błąd rozkładu Gaussa, gdy są faktycznie rozkładem dwumianowym. Dixon (2008) omawia konsekwencje tego grzechu i eksploruje bardziej odpowiednie podejścia analityczne.
źródło
Obecnie popularny jest wykres 95% przedziałów ufności wokół surowych wartości wydajności w projektach z powtarzanymi pomiarami, gdy odnoszą się one tylko do wariancji efektu. Na przykład wykres czasów reakcji w układzie z powtarzanymi pomiarami z przedziałami ufności, w których składnik błędu pochodzi z MSE analizy ANOVA z powtarzanymi pomiarami. Te przedziały ufności nie reprezentują niczego sensownego. Z pewnością nie przedstawiają nic na temat bezwzględnego czasu reakcji. Możesz użyć terminu błędu, aby wygenerować przedziały ufności wokół efektu, ale jest to rzadko wykonywane.
źródło
Chociaż mogę odnosić się do większości tego, co mówi Michael Lew, porzucenie wartości p na rzecz wskaźników prawdopodobieństwa nadal pomija bardziej ogólny problem - nadmierne podkreślanie prawdopodobieństwa wyników probabilistycznych nad wielkościami efektów, które są wymagane, aby nadać wynikowi merytoryczne znaczenie. Ten rodzaj błędu występuje we wszystkich kształtach i rozmiarach i uważam go za najbardziej podstępny błąd statystyczny. Opierając się na J. Cohen i M. Oakes i innych, napisałem o tym artykuł na stronie http://integrativestatistics.com/insidious.htm .
źródło
Nie przetestowanie założenia, że błąd jest zwykle rozkładany i ma stałą wariancję między zabiegami. Te założenia nie zawsze są testowane, dlatego dopasowanie modelu najmniejszych kwadratów jest prawdopodobnie często stosowane, gdy jest w rzeczywistości nieodpowiednie.
źródło
Mój wstępny kurs psychometrii na studiach licencjackich spędził co najmniej dwa tygodnie ucząc, jak wykonywać regresję stopniową. Czy jest jakaś sytuacja, w której regresja krokowa jest dobrym pomysłem?
źródło
Mój stary profesor statystyki miał „ogólną zasadę” dotyczącą radzenia sobie z wartościami odstającymi: jeśli widzisz wartość odstającą na swoim wykresie rozrzutu, zakryj ją kciukiem :)
źródło
Może to być bardziej odpowiedź na pop-statystyki niż to, czego szukasz, ale:
Wykorzystanie średniej jako wskaźnika lokalizacji, gdy dane są mocno wypaczone .
To nie jest niekoniecznie problem, jeśli ty i twoja publiczność wiecie, o czym mówicie, ale generalnie tak nie jest, a mediana często daje lepszy obraz tego, co się dzieje.
Moim ulubionym przykładem są średnie płace, które zwykle są zgłaszane jako „średnie płace”. W zależności od nierówności dochodów / bogactwa w danym kraju, może to znacznie różnić się od mediany płac, co daje znacznie lepszy wskaźnik tego, gdzie ludzie są w prawdziwym życiu. Na przykład w Australii, gdzie mamy stosunkowo niską nierówność, mediana jest o 10–15% niższa niż średnia . W USA różnica jest znacznie ostrzejsza , mediana wynosi mniej niż 70% średniej, a różnica rośnie.
Zgłaszanie „przeciętnej” (średniej) płacy powoduje, że obraz jest bardziej różowy niż jest to uzasadnione, a także może dać wielu ludziom fałszywe wrażenie, że nie zarabiają tyle, co „normalni” ludzie.
źródło
To, że wartość p jest prawdopodobieństwem, że hipoteza zerowa jest prawdziwa, a (1-p) jest prawdopodobieństwem, że hipoteza alternatywna jest prawdziwa, że brak odrzucenia hipotezy zerowej oznacza, że hipoteza alternatywna jest fałszywa itp.
źródło
W podobny sposób jak @dirkan - Zastosowanie wartości p jako formalnej miary dowodu prawdziwości hipotezy zerowej. Ma pewne dobre cechy heurystyczne i intuicyjnie dobre, ale zasadniczo jest niekompletną miarą dowodów, ponieważ nie odwołuje się do alternatywnej hipotezy. Chociaż dane mogą być mało prawdopodobne poniżej zera (co prowadzi do małej wartości p), dane mogą być jeszcze bardziej mało prawdopodobne przy alternatywnej hipotezie.
źródło
Wykorzystanie wykresów kołowych do zilustrowania częstotliwości względnych. Więcej tutaj .
źródło
Wykorzystanie statystyki / prawdopodobieństwa w testowaniu hipotez do pomiaru „absolutnej prawdy”. Statystyki po prostu nie mogą tego zrobić, mogą być przydatne jedynie przy podejmowaniu decyzji między alternatywami , które muszą być określone „poza” paradygmatem statystycznym. Stwierdzenia takie jak „hipoteza zerowa jest potwierdzona przez statystyki” są po prostu niepoprawne; statystyki mówią tylko: „hipoteza zerowa jest faworyzowana przez dane, w porównaniu do hipotezy alternatywnej”. Jeśli następnie przyjmiesz, że hipoteza zerowa lub alternatywa musi być prawdziwa, możesz powiedzieć „zerowa okazała się prawdziwa”, ale jest to tylko trywialna konsekwencja twojego założenia, a nie dane wykazane przez dane.
źródło
I podobnie jak (lub prawie taka sama) jak odpowiedź @ ogrisel , przeprowadzając wyszukiwanie w sieci i zgłaszając tylko najlepszy wynik.
źródło
(Przy odrobinie szczęścia będzie to kontrowersyjne.)
Wykorzystanie podejścia Neymana-Pearsona do analizy statystycznej eksperymentów naukowych. Lub, co gorsza, używając źle zdefiniowanej hybrydy Neymana-Pearsona i Fishera.
źródło
Żądanie i być może uzyskanie schematu blokowego : Graficzna rzecz, w której mówisz, jaki jest poziom swoich zmiennych i jakiego rodzaju relacji szukasz, i podążasz za strzałkami w dół, aby uzyskać test marki lub statystykę marki . Czasami oferowany z tajemniczymi ścieżkami „parametrycznymi” i „nieparametrycznymi”.
źródło