Jakie są powszechne grzechy statystyczne?

227

Jestem studentem psychologii, a ponieważ prowadzę coraz więcej niezależnych badań statystycznych, coraz bardziej zdumiewa mnie nieadekwatność mojego formalnego szkolenia. Zarówno doświadczenia osobiste, jak i z drugiej ręki sugerują, że niedostatek rygorystyczności statystycznej w szkoleniach licencjackich i magisterskich jest dość powszechny w psychologii. Jako taki, pomyślałem, że byłoby przydatne dla niezależnych uczniów, takich jak ja, stworzyć listę „grzechów statystycznych”, zestawiając praktyki statystyczne nauczane oceniania studentów jako standardowe praktyki, które w rzeczywistości są albo zastępowane przez przełożonego (mocniejszego, albo elastycznego, albo solidne itp.) nowoczesne metody lub szczerze mówiąc nieważne. Przewidując, że inne dziedziny mogą również doświadczać podobnego stanu rzeczy, proponuję wiki społeczności, w której możemy zebrać listę grzechów statystycznych z różnych dyscyplin.

Mike Lawrence
źródło
5
Wiem, że „grzech” jest prawdopodobnie zapalny i że niektóre aspekty analizy statystycznej nie są czarno-białe. Zamierzam zabiegać o przypadki, w których dana powszechnie nauczana praktyka jest całkiem nieodpowiednia.
Mike Lawrence
5
Możesz również dodać studentów biologii / nauk przyrodniczych do mieszanki, jeśli chcesz;)
nico
1
może przemienić to w grzechy statystyczne z nauk przyrodniczych? ... lub coś bardziej szczegółowego ...
Jan
1
@whuber Było kilka dobrych odpowiedzi, więc połączyłem je oba.
1
Cześć @Amanda, czy mógłbyś podać jakieś wskazówki na temat tego, o czym mówi? Nikt nie lubi możliwości rzucania rick.
naught101

Odpowiedzi:

118

Niezapoznanie się z (wykreśleniem) danych.

vqv
źródło
+1 Dobra robota! Jestem zszokowany, że nie zostało to jeszcze wspomniane.
whuber
1
Bardzo, bardzo ważne!
deps_stats
1
Prawdopodobnie najczęstszy.
Carlos Cinelli
115

Większość interpretacji wartości p jest grzeszna! Konwencjonalne stosowanie wartości p jest bardzo wadliwe; fakt, który moim zdaniem podważa standardowe podejście do nauczania testów hipotez i testów istotności.

Haller i Krause odkryli, że instruktorzy statystyczni mają prawie taką samą szansę, jak uczniowie, błędnie interpretują wartości p. (Weź udział w teście i sprawdź, jak sobie radzisz.) Steve Goodman ma dobry powód, aby odrzucić konwencjonalne (niewłaściwe) użycie wartości p na rzecz prawdopodobieństw. Warto też zajrzeć do papieru Hubbarda.

Haller i Krauss. Błędne interpretacje znaczenia: problem, który uczniowie dzielą ze swoimi nauczycielami . Methods of Psychological Research (2002) vol. 7 (1) s. 1-20 ( PDF )

Hubbard i Bayarri. Zamieszanie w zakresie miar dowodów (p) w porównaniu do błędów (α) w klasycznych testach statystycznych . The American Statistician (2003) vol. 57 (3)

Dobry człowiek. W kierunku statystyki medycznej opartej na dowodach. 1: Błąd wartości P. Ann Intern Med (1999) vol. 130 (12) s. 995–1004 ( PDF )

Zobacz także:

Wagenmakers, EJ. Praktyczne rozwiązanie wszechobecnych problemów wartości p. Biuletyn i przegląd psychonomiczny, 14 (5), 779–804.

dla niektórych jasnych przypadków, w których nawet nominalnie „poprawna” interpretacja wartości p została niepoprawna z powodu wyborów dokonanych przez eksperymentatora.

Aktualizacja (2016) : W 2016 r. Amerykańskie Stowarzyszenie Statystyczne wydało oświadczenie w sprawie wartości p, patrz tutaj . Była to poniekąd odpowiedź na „zakaz wartości p” wydany przez czasopismo psychologiczne około rok wcześniej.

Michael Lew
źródło
2
@Michael (+1) Dodałem linki do streszczeń i nieokreślonych plików PDF. Mam nadzieję, że nie masz nic przeciwko.
chl
7
+1, ale chciałbym zrobić kilka krytycznych komentarzy. Jeśli chodzi o linię początkową, równie dobrze można powiedzieć, że „prawie wszystkie” (w sensie teoretycznym) interpretacje każdego dobrze zdefiniowanego pojęcia są niepoprawne, ponieważ tylko jedna jest poprawna. Po drugie, do czego się odnosisz, kiedy mówisz „konwencjonalne użycie” i „standardowe podejście”? Te niejasne odniesienia brzmią jak słomiany człowiek. Nie zgadzają się na przykład z tym, co można znaleźć w literaturze na temat edukacji statystycznej.
whuber
4
@ Whuber Rzuć okiem na artykuł Goodmana. Całkiem dobrze zgadza się z moim doświadczeniem w dziedzinie farmakologii. Metody mówią „Wyniki, w których P <0,05 przyjęto za istotne statystycznie”, a następnie wyniki przedstawiono za pomocą + dla p <0,05, ++ dla p <0,01 i +++ dla p <0,0001. Stwierdzenie implikuje kontrolę wskaźników błędów a la Neyman i Pearson, ale zastosowanie różnych poziomów p sugeruje podejście Fishera, w którym wartość p jest wskaźnikiem siły dowodów w stosunku do hipotezy zerowej. Jak podkreśla Goodman, nie można jednocześnie kontrolować poziomów błędów i oceniać siły dowodów.
Michael Lew
8
@Michael Istnieją alternatywne, bardziej hojne interpretacje tego rodzaju raportów. Na przykład autor może zdawać sobie sprawę, że czytelnicy mogą chcieć zastosować własne progi istotności, a zatem dokonać oznaczenia wartości p, aby im pomóc. Alternatywnie autor może zdawać sobie sprawę z możliwych problemów z wielokrotnym porównywaniem i używać różnych poziomów w dopasowaniu podobnym do Bonferroniego. Być może pewna część winy za niewłaściwe użycie wartości p powinna zostać postawiona u stóp czytelnika, a nie autora.
whuber
4
@ Whuber Zgadzam się całkowicie, ale tylko to, co sugerujesz, jest prawdą w niektórych niewielkich częściach przypadków (ograniczona wersja „całkowicie”). Istnieje kilka czasopism, które określają, że wartości p powinny być zgłaszane na poziomie jednej, dwóch lub trzech gwiazdek zamiast dokładnych wartości, więc dzienniki te ponoszą część odpowiedzialności za wynik. Jednak zarówno ten źle przemyślany wymóg, jak i pozornie naiwne stosowanie wartości p może wynikać z braku jasnego wyjaśnienia różnic między poziomami błędu a dowodami w kilku tekstach statystyk wprowadzających, które są na moich półkach.
Michael Lew
73

Najbardziej niebezpieczną pułapką, na którą natrafiłem podczas pracy nad modelem predykcyjnym, jest nie rezerwowanie zestawu danych testowych wcześnie, aby poświęcić je „ostatecznej” ocenie wydajności.

Bardzo łatwo jest przecenić dokładność predykcyjną swojego modelu, jeśli masz szansę jakoś wykorzystać dane testowe podczas dostrajania parametrów, wybierania wcześniejszego, wybierania kryterium zatrzymania algorytmu uczenia się ...

Aby uniknąć tego problemu, przed rozpoczęciem pracy nad nowym zestawem danych należy podzielić dane w następujący sposób:

  • zestaw deweloperski
  • zestaw ewaluacyjny

Następnie podziel swój zestaw programistyczny na „zestaw programistyczny szkolenia” i „zestaw programistyczny do testowania”, w którym za pomocą zestawu programistycznego do szkolenia trenujesz różne modele o różnych parametrach i wybierasz najlepsze w zależności od wydajności zestawu testowego. Można również wyszukiwać w siatce z weryfikacją krzyżową, ale tylko na zestawie programistycznym. Nigdy nie używaj zestawu ewaluacyjnego, gdy wybór modelu nie jest w 100% gotowy.

Gdy jesteś pewien wyboru i parametrów modelu, wykonaj 10-krotną weryfikację krzyżową zestawu ewaluacyjnego, aby mieć pojęcie o „rzeczywistej” dokładności predykcyjnej wybranego modelu.

Również jeśli dane są tymczasowe, najlepiej wybrać podział programistyczny / oceniający na kod czasowy: „Trudno jest przewidzieć - szczególnie na przyszłość”.

ogrisel
źródło
5
Zasadniczo się z tym zgadzam, ale w przypadku małego zestawu danych (często mam tylko 20–40 przypadków) zastosowanie oddzielnego zestawu ocen nie jest praktyczne. Zagnieżdżona walidacja krzyżowa może obejść ten problem, ale może prowadzić do pesymistycznych oszacowań małych zestawów danych
BGreene
11
Ogólnie rzecz biorąc, dzielenie danych wymaga ogromnego zestawu danych. Dlatego rygorystyczne wewnętrzne sprawdzanie poprawności za pomocą bootstrap jest tak atrakcyjne.
Frank Harrell,
Zwłaszcza, gdy zestaw deweloperski to przeszłe dane, a zestaw ewaluacyjny przyszłe dane. Dlaczego nie, po dostrajaniu modelu, wytrenuj ostateczny model z ustalonymi parametrami na całym zestawie rozwojowym i przewiduj z nim cały zestaw oceny. W prawdziwym scenariuszu nie można krzyżowo zweryfikować przez przyszłe dane tak, jak i tak opisujesz, więc użyłbyś wszystkich istotnych danych z przeszłości.
David Ernst
64

Raportowanie wartości p podczas eksploracji danych (wykrywanie hipotez) zamiast statystyk (testowanie hipotez).

Neil McGuigan
źródło
2
Czy możesz (lub ktoś) opracować?
antoine-sac
1
patrz en.wikipedia.org/wiki/Data_dredging
Neil McGuigan
Co z wartościami p skorygowanymi do testowania wielu hipotez (z pewnym posmakiem metody Bonferroniego lub bardziej zaawansowanej korekcji)? Chciałbym myśleć, że jest w porządku, nawet w kontekście eksploracji danych?
antoine-sac
Podoba mi się ogólna idea, ale zniekształcenie utożsamia statystyki z testowaniem hipotez, gdy ten drugi jest podzbiorem tego pierwszego.
rolando2
46

Testowanie hipotez porównaniu do H 1 : μ 0 (na przykład w ustawieniu Gaussa)H0:μ=0H1:μ0

uzasadnić, że w modelu (tj. mieszanka „ H 0 nie jest odrzucany” i „ H 0 to prawda”).μ=0H0H0

Bardzo dobrym przykładem tego rodzaju (bardzo złego) rozumowania jest testowanie, czy wariancje dwóch Gaussów są równe (czy nie) przed testowaniem, czy ich średnia jest równa czy nie przy założeniu równej wariancji.

Kolejny przykład występuje, gdy testujesz normalność (w porównaniu z normalnością) w celu uzasadnienia normalności. Czy każdy statystyk to zrobił w życiu? to jest baaad :) (i powinno zachęcać ludzi do sprawdzania odporności na nie Gaussa)

robin girard
źródło
6
Ta sama logika (przyjmowanie „braku dowodów na korzyść H1” jak „dowód braku H1”) zasadniczo leży u podstaw wszystkich testów dopasowania. Rozumowanie często pojawia się także wtedy, gdy ludzie twierdzą, że „test nie był znaczący, dlatego możemy stwierdzić, że nie ma wpływu czynnika X / żadnego wpływu zmiennej Y”. Sądzę, że grzech jest mniej dotkliwy, jeśli towarzyszy mu rozumowanie dotyczące mocy testu (np. Oszacowanie z góry wielkości próbki, aby osiągnąć określoną moc, biorąc pod uwagę odpowiedni rozmiar efektu).
caracal
Jeśli nie dokonywać żadnych concideration o mocy, powiedziałbym Claming jest prawdziwa, gdy nie jest odrzucana jest bardzo zły, gdy Claming H 1 jest prawdziwe, gdy H 0 jest odrzucana jest tylko trochę źle :). H0H1H0
robin girard
Wspaniały!! Tak, to doprowadza mnie do szału ...
jpillow
3
Staram się być statystycznie piśmiennym i od czasu do czasu zakochuję się w tym. Jakie są alternatywy? Zmień model, aby stary null stał się ? Jedyną inną opcją, jaką mogę wymyślić, jest wystarczająca moc twojego badania, że ​​brak odrzucenia wartości zerowej jest w praktyce wystarczająco blisko do potwierdzenia wartości zerowej. Np. Jeśli chcesz się upewnić, że dodanie odczynnika do komórek nie zabije więcej niż 2% z nich, dodaj moc do zadowalającej liczby fałszywie ujemnych. H1
DocBuckets
Test równoważności @DocBuckets z dwustronnymi testami jest bardziej rygorystyczny niż podejście oparte na mocy. Ale musisz ustawić minimalny odpowiedni rozmiar efektu, poniżej którego można mówić o praktycznej równoważności.
David Ernst
46

Kilka błędów, które mnie niepokoją:

  1. Zakładając, że obiektywne estymatory są zawsze lepsze niż estymatory stronnicze.

  2. Zakładając, że wysoki oznacza dobry model, niskie R 2 oznacza zły model.R2)R2)

  3. Niepoprawna interpretacja / zastosowanie korelacji.

  4. Oszacowania punktu raportowania bez błędu standardowego.

  5. Używanie metod zakładających pewien rodzaj wielowymiarowej normalności (takich jak liniowa analiza dyskryminacyjna), gdy dostępne są bardziej niezawodne, lepiej działające metody nie / półparametryczne.

  6. Wykorzystanie wartości p jako miary siły między predyktorem a odpowiedzią, a nie jako miara ilości dowodów na istnienie pewnego związku.

HairyBeast
źródło
5
Czy podzieliłbyś je na osobne opcje?
russellpierce
41

Dychotomizacja ciągłej zmiennej predykcyjnej w celu „uproszczenia” analizy lub rozwiązania „problemu” nieliniowości w wyniku działania predyktora ciągłego.

Mike Lawrence
źródło
18
Nie sądzę, że to naprawdę „grzech”, ponieważ uzyskane wyniki nie są złe. Jednak wyrzuca wiele przydatnych informacji, więc nie jest to dobra praktyka.
Rob Hyndman,
2
Wzdłuż tych linii, stosując skrajne grupy, projektu zawyżono wielkości efektów, podczas gdy zastosowanie średniej lub mediany podzielonych rozmiarów efektów niedoszacowanych.
russellpierce
2
To nie jest grzech, jeśli istnieją dwie lub więcej odrębnych populacji. Załóżmy, że masz oddzielne klasy lub subpopulacje, wtedy dyskretne może być sensowne. Bardzo trywialny przykład: czy wolałbym używać wskaźników dla witryny / lokalizacji / miasta / kraju lub lat / długości?
Iterator,
3
+1 i staje się poważnym grzechem, gdy zaczynają wybierać odcięcie dychotomizacji, aby zoptymalizować jakąś różnicę, która jest następnie testowana.
Erik
5
@Iterator zacząć się w prawdziwy powód do agregacji (do dwóch lub więcej kategorii), który jest dlatego, że jeden ma a priori powodów, by sądzić, że teoretyczne odchylenie jest sensownie compartmentalized w tych kategoriach . Na przykład robimy to cały czas, zakładając, że kolekcje około bilionów komórek składają się z jednej osoby , lub że ciągły 24-godzinny okres tutaj na Ziemi jest sensownie interpretowany jako jednostka. Jednak arbitralne agregowanie nie tylko „wyrzuca” informacje (np. Moc statystyczną), ale może prowadzić do (poważnych) stronniczości dotyczących relacji między zjawiskami.
Alexis,
41

Naprawdę nie odpowiadam na pytanie, ale jest cała książka na ten temat:

Phillip I. Good, James William Hardin (2003). Typowe błędy w statystykach (i jak ich uniknąć). Wiley. ISBN 9780471460688

jeden przystanek
źródło
6
+1 Upewniłem się, że przeczytałem tę książkę wkrótce po jej wydaniu. Mam mnóstwo okazji do popełniania błędów statystycznych, więc zawsze jestem wdzięczny za ich zwrócenie uwagi przed ich popełnieniem!
whuber
41

Rytualizowane statystyki.

Ten „grzech” ma miejsce, gdy zastosujesz wszystko, czego się nauczyłeś, niezależnie od jego stosowności, ponieważ tak właśnie się dzieje. Są to statystyki rote, jeden poziom powyżej, dzięki czemu maszyna może wybrać statystyki dla ciebie.

Przykładami są wprowadzenie do studentów na poziomie statystycznym, którzy próbują dopasować wszystko do swojego skromnego testu t i zestawu narzędzi ANOVA, lub za każdym razem, gdy pojawia się pytanie „Och, mam dane kategoryczne, powinienem użyć X”, nigdy nie przestając patrzeć na dane lub rozważ zadane pytanie.

Odmiana tego grzechu polega na użyciu kodu, którego nie rozumiesz, aby uzyskać wynik, który rozumiesz tylko w pewien sposób, ale znasz „piątą kolumnę, około 8 rzędów w dół” lub jakąkolwiek odpowiedź, której powinieneś szukać.

Fomite
źródło
6
Niestety, jeśli nie jesteś zainteresowany wnioskami statystycznymi lub brakuje ci czasu i / lub zasobów, rytuał wydaje się bardzo pociągający ...
probabilityislogic
Według mnie Epigrad opisuje kogoś, kto dba o wnioskowanie i zaniedbuje takie rzeczy, jak refleksja, odkrycie i rozważenie przyczynowości.
rolando2,
35

Może regresja krokowa i inne formy testowania po wyborze modelu.

Wybranie zmiennych niezależnych do modelowania bez hipotez a priori za istniejącymi relacjami może prowadzić do logicznych błędów lub fałszywych korelacji, między innymi błędami.

Przydatne odniesienia (z biologicznego / biostatystycznego punktu widzenia):

  1. Kozak, M., i Azevedo, R. (2011). Czy zastosowanie stopniowego wyboru zmiennych do budowy modeli sekwencyjnej analizy ścieżki ma sens? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB i Freckleton, RP (2006). Dlaczego nadal stosujemy modelowanie krokowe w ekologii i zachowaniu? Dziennik ekologii zwierząt, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Strategie Modelowania Regresji , Springer 2001.

Ben Bolker
źródło
32

Coś, co widzę w zaskakujących ilościach w artykułach konferencyjnych, a nawet w czasopismach, dokonuje wielu porównań (np. Korelacji dwuwymiarowych), a następnie zgłasza wszystkie p <0,05 jako „znaczące” (ignorując na chwilę poprawność lub pomyłkę tego).

Wiem również, co masz na myśli o absolwentach psychologii - ukończyłem doktorat z psychologii i wciąż dopiero się uczę. Jest całkiem źle, myślę, że psychologia musi poważniej potraktować ilościową analizę danych, jeśli zamierzamy ją wykorzystać (co oczywiście powinniśmy)

Chris Beeley
źródło
9
Jest to szczególnie ważne. Pamiętam, jak czytałem badanie na temat tego, czy Ramadan był zły dla niemowląt, których matki pościły. Wyglądało to prawdopodobne (mniej jedzenia, niższa waga urodzeniowa), ale potem spojrzałem na wyrostek robaczkowy. Tysiące hipotez i kilka procent z nich było w „znaczącym” zakresie. Otrzymujesz dziwne „konkluzje”, takie jak „to złe dla dziecka, jeśli Ramadan ma 2, 4 lub 6 miesiąc”.
Carlos
29

Badawczy, ale udający potwierdzającego. Może się to zdarzyć, gdy ktoś modyfikuje strategię analizy (tj. Dopasowanie modelu, wybór zmiennych itp.) Sterowany danymi lub wynikami, ale nie określa tego otwarcie, a następnie zgłasza jedynie wyniki „najlepsze” (tj. Z najmniejszymi wartościami p), tak jakby to była jedyna analiza. Odnosi się to również do tego, czy wielokrotne testy wykonane przez Chrisa Beeleya skutkują wysokim odsetkiem wyników fałszywie dodatnich w raportach naukowych.

psj
źródło
26

To, co widzę dość często i zawsze szlifuje moje koła zębate, to założenie, że statystycznie istotny główny efekt w jednej grupie i nieistotny statystycznie główny efekt w innej grupie implikuje znaczący efekt x interakcja z grupą.

rpierce
źródło
24

Zwłaszcza w epidemiologii i zdrowiu publicznym - stosowanie arytmetyki zamiast skali logarytmicznej przy zgłaszaniu wykresów względnych miar asocjacji (współczynnik ryzyka, iloraz szans lub współczynnik ryzyka).

Więcej informacji tutaj .

radek
źródło
5
Nie wspominając już o nieoznaczaniu
radek,
23

Korelacja implikuje związek przyczynowy, który nie jest tak zły, jak przyjęcie hipotezy zerowej.

suncoolsu
źródło
ale czasami ... czasami potencjalne kierunki przyczynowości mają bardzo różne prawdopodobieństwa. Na pewno nie zamierzam myśleć, że korelacja między wiekiem a wzrostem może być spowodowana wzrostem ... lub jakąś zmienną pośrednią. Myślę też, że jest to taki, na który trening nauk behawioralnych jest ogólnie dość wrażliwy.
Jan
w rzeczy samej, wnioskując z czegoś, co A and B are correlatedzwykle tylko widzi, A causes Bale nie B causes A... (i zapomina o tym, Cjakie przyczyny Ai B)
Andre Holzner,
12
Google zarabia 65 miliardów dolarów rocznie, nie dbając o różnicę ...
Neil McGuigan
5
Zgadzam się z twoimi punktami i wszystkie są ważne. Ale czy zysk Google implikuje: korelacja => związek przyczynowy?
suncoolsu,
3
Google zarabia te pieniądze, nie dbając wcale o związek przyczynowy. Rzeczywiście, dlaczego miałby to zrobić? Przewidywanie jest rzeczą ...
sprzężonyprior
23

Analiza danych prędkości (dokładność itp.) Przy użyciu ANOVA, zakładając w ten sposób, że dane prędkości mają błąd rozkładu Gaussa, gdy są faktycznie rozkładem dwumianowym. Dixon (2008) omawia konsekwencje tego grzechu i eksploruje bardziej odpowiednie podejścia analityczne.

Mike Lawrence
źródło
4
Jak bardzo to zmniejsza moc analizy? W jakich warunkach jest to najbardziej problematyczne? W wielu przypadkach odchylenia od założeń ANOVA nie wpływają w znaczący sposób na wyniki.
Michael Lew
Jaka jest alternatywa dla procedury ANOVA?
Henrik
@Michael Lew & Henrik: Właśnie zaktualizowałem ten wpis, aby zawierał link do Dixon (2008)
Mike Lawrence
2
Krótko mówiąc, najbardziej problematyczne jest, gdy zaobserwowane prawdopodobieństwa są niskie lub wysokie, ponieważ zakres wartości jest zawężony i niezdolny do spełnienia założeń Gaussa.
russellpierce
Jest to tak złe, jak normalne przybliżenie dwumianowe - powinno być w porządku, pod warunkiem że każdy przypadek jest ważony mianownikiem stosowanym do obliczania stawki. Spodziewałby się, że będzie on działał słabo przy stawkach poniżej 10% i powyżej 90%.
probabilityislogic
18

Obecnie popularny jest wykres 95% przedziałów ufności wokół surowych wartości wydajności w projektach z powtarzanymi pomiarami, gdy odnoszą się one tylko do wariancji efektu. Na przykład wykres czasów reakcji w układzie z powtarzanymi pomiarami z przedziałami ufności, w których składnik błędu pochodzi z MSE analizy ANOVA z powtarzanymi pomiarami. Te przedziały ufności nie reprezentują niczego sensownego. Z pewnością nie przedstawiają nic na temat bezwzględnego czasu reakcji. Możesz użyć terminu błędu, aby wygenerować przedziały ufności wokół efektu, ale jest to rzadko wykonywane.

John
źródło
Czy istnieje standardowy artykuł, który można zacytować, aby zniechęcić recenzentów do żądania tak powszechnej praktyki?
russellpierce
Jedyną krytyką, którą znam, jest Blouin i Riopelle (2005), ale nie docierają do sedna sprawy. Zasadniczo nie nalegam, aby ich nie pokazywać, ale robić coś poprawnego, jak na wykresach efektu Massona i Loftusa (2003, patrz rysunek 4, prawy panel ... gdyby zostały usunięte z lewego, zrobiłbyś to dobrze ).
John
Żeby było jasne, problem z tymi CI polega na tym, że są one używane wyłącznie z powodów wnioskowych w odniesieniu do różnic między warunkami i dlatego są gorsze nawet niż PLSD ... w rzeczywistości wolę je. Przynajmniej są uczciwi.
Jan
17

Chociaż mogę odnosić się do większości tego, co mówi Michael Lew, porzucenie wartości p na rzecz wskaźników prawdopodobieństwa nadal pomija bardziej ogólny problem - nadmierne podkreślanie prawdopodobieństwa wyników probabilistycznych nad wielkościami efektów, które są wymagane, aby nadać wynikowi merytoryczne znaczenie. Ten rodzaj błędu występuje we wszystkich kształtach i rozmiarach i uważam go za najbardziej podstępny błąd statystyczny. Opierając się na J. Cohen i M. Oakes i innych, napisałem o tym artykuł na stronie http://integrativestatistics.com/insidious.htm .

rolando2
źródło
3
Właściwie nie jestem pewien, w jaki sposób współczynnik prawdopodobieństwa (LR) nie osiąga wszystkiego, co osiąga wielkość efektu, a także stosuje łatwą do interpretacji skalę (dane zawierają X razy więcej dowodów dla Y niż dla Z). Wielkość efektu jest zwykle tylko jakąś formą stosunku wyjaśnionej zmienności do niewyjaśnionej zmienności, a (w przypadku zagnieżdżonym) LR jest stosunkiem niewyjaśnionej zmienności między modelem, który ma efekt, a tym, który go nie ma. Czy nie powinna istnieć silna korelacja między wielkością efektu a LR, a jeśli tak, to co zostaje utracone poprzez przejście do skali współczynnika prawdopodobieństwa?
Mike Lawrence
Mike - Zainteresowałeś mnie, ale czy twoje punkty dotyczą rozmiarów efektów tak prostych, jak średnie różnice między grupami? Mogą one być łatwo zinterpretowane przez laika i można im także przypisać przedziały ufności.
rolando2
Ach, więc przez wielkość efektu rozumiesz bezwzględny rozmiar efektu, wartość, która sama w sobie nie ma znaczenia, ale którą można uczynić znaczącą przez przekształcenie w względny rozmiar efektu (przez podzielenie przez pewną miarę zmienności, jak wspomniałem) lub przez obliczenia przedział ufności dla bezwzględnego rozmiaru efektu. Mój powyższy argument dotyczy zalet LR w porównaniu z względnymi wielkościami efektów. Może być użyteczna do obliczania CI efektów w przypadkach, w których rzeczywista wartość efektu jest interesująca (np. Prognozowanie), ale nadal jestem przy LR jako bardziej intuicyjna skala do mówienia o dowodach za / przeciw efektom.
Mike Lawrence
Wydaje mi się, że użycie LR w porównaniu z CI prawdopodobnie będzie się różnić w zależności od kontekstu, który można użytecznie streścić w następujący sposób: Bardziej eksploracyjne etapy nauki, w których teorie z grubsza charakteryzują się istnieniem / brakiem zjawisk, mogą preferować LR do kwantyfikacji dowodów. Z drugiej strony, CI mogą być preferowane na bardziej zaawansowanych etapach nauki, gdzie teorie są wystarczająco dopracowane, aby umożliwić niuansowane przewidywanie obejmujące zakres oczekiwanych efektów lub, przeciwnie, gdy różne zakresy wielkości efektu wspierają różne teorie. Wreszcie prognozy generowane z dowolnego modelu wymagają elementów CI.
Mike Lawrence
0|β|=1|β|>1|β|1β=0β0
15

Nie przetestowanie założenia, że ​​błąd jest zwykle rozkładany i ma stałą wariancję między zabiegami. Te założenia nie zawsze są testowane, dlatego dopasowanie modelu najmniejszych kwadratów jest prawdopodobnie często stosowane, gdy jest w rzeczywistości nieodpowiednie.

jebyrnes
źródło
11
Co jest niewłaściwego w szacowaniu metodą najmniejszych kwadratów, gdy dane są nienormalne lub heteroskedastyczne? Nie jest w pełni wydajny, ale nadal jest bezstronny i spójny.
Rob Hyndman,
3
Jeśli dane są heteroscedastyczne, możesz skończyć z bardzo niedokładnymi prognozami próbek, ponieważ model regresji będzie próbował zbyt mocno, aby zminimalizować błąd na próbkach w obszarach o dużej wariancji i niewystarczająco twardy na próbkach z obszarów o niskiej wariancji. Oznacza to, że możesz skończyć z bardzo źle stronniczym modelem. Oznacza to również, że paski błędów w prognozach będą błędne.
Dikran Marsupial
6
Nie, jest to obiektywne, ale wariancja jest większa niż w przypadku zastosowania bardziej wydajnej metody z powodów, które wyjaśnisz. Tak, przedziały prognozowania są nieprawidłowe.
Rob Hyndman,
4
Tak (używałem stronniczości raczej w sensie potocznym niż statystycznym, aby oznaczać, że model był systematycznie tendencyjny w kierunku obserwacji w regionach o dużej wariancji przestrzeni cech - mea culpa!) - dokładniej byłoby powiedzieć, że wyższa wariancja oznacza istnieje zwiększona szansa na uzyskanie złego modelu przy użyciu skończonego zestawu danych. To wydaje się rozsądną odpowiedzią na twoje pytanie. Nie uważam tak naprawdę bezstronności za wygodę - ważne jest to, że model powinien dawać dobre prognozy danych, które faktycznie posiadam, a często wariancja jest ważniejsza.
Dikran Torbacz
14

Mój wstępny kurs psychometrii na studiach licencjackich spędził co najmniej dwa tygodnie ucząc, jak wykonywać regresję stopniową. Czy jest jakaś sytuacja, w której regresja krokowa jest dobrym pomysłem?

Christopher Aden
źródło
6
„Dobry pomysł” zależy od sytuacji. Jeśli chcesz zmaksymalizować prognozy, nie jest to okropny pomysł - choć może to prowadzić do zbytniego dopasowania. Istnieją rzadkie przypadki, w których jest to nieuniknione - gdzie nie ma teorii, która prowadziłaby wybór modelu. Nie liczyłbym regresji krokowej jako „grzechu”, ale używa się jej, gdy teoria jest wystarczająca do wyboru modelu.
russellpierce
20
Być może grzech wykonuje testy statystyczne na modelu uzyskanym metodą regresji krokowej.
Rob Hyndman,
3
W porządku, jeśli korzystasz z weryfikacji krzyżowej i nie dokonujesz ekstrapolacji. Nie publikuj jednak wartości p, ponieważ są one bez znaczenia.
Neil McGuigan
Pracuję nad projektem wykorzystującym regresję krokową. Powodem jest to, że mam D >> N, gdzie D to wymiarowość, a N to wielkość próbki (co wyklucza użycie jednego modelu ze wszystkimi zmiennymi), podzbiory cech są ze sobą ściśle skorelowane, chcę statystycznie zasadowy sposób wybierania być może 2-3 „najlepszych” funkcji i nie zamierzam zgłaszać wartości P, przynajmniej bez jakiejś dość zachowawczej korekty.
dsimcha
12

Mój stary profesor statystyki miał „ogólną zasadę” dotyczącą radzenia sobie z wartościami odstającymi: jeśli widzisz wartość odstającą na swoim wykresie rozrzutu, zakryj ją kciukiem :)

Neil McGuigan
źródło
Jest to podobne do Winsorization, który nie jest zbyt straszny.
Ari B. Friedman,
12

Może to być bardziej odpowiedź na pop-statystyki niż to, czego szukasz, ale:

Wykorzystanie średniej jako wskaźnika lokalizacji, gdy dane są mocno wypaczone .

To nie jest niekoniecznie problem, jeśli ty i twoja publiczność wiecie, o czym mówicie, ale generalnie tak nie jest, a mediana często daje lepszy obraz tego, co się dzieje.

Moim ulubionym przykładem są średnie płace, które zwykle są zgłaszane jako „średnie płace”. W zależności od nierówności dochodów / bogactwa w danym kraju, może to znacznie różnić się od mediany płac, co daje znacznie lepszy wskaźnik tego, gdzie ludzie są w prawdziwym życiu. Na przykład w Australii, gdzie mamy stosunkowo niską nierówność, mediana jest o 10–15% niższa niż średnia . W USA różnica jest znacznie ostrzejsza , mediana wynosi mniej niż 70% średniej, a różnica rośnie.

Zgłaszanie „przeciętnej” (średniej) płacy powoduje, że obraz jest bardziej różowy niż jest to uzasadnione, a także może dać wielu ludziom fałszywe wrażenie, że nie zarabiają tyle, co „normalni” ludzie.

zero101
źródło
Dyskusja na ten temat jest częściowo powiązana, ponieważ dotyczy to analizy trendów tutaj: tamino.wordpress.com/2012/03/29/…
naught101
2
Nie jest to związane tylko ze skośnością, ale jest ogólnym problemem, że średnia lub jakakolwiek inna miara tendencji centralnej nie wystarcza bez uwzględnienia dyspersji. Na przykład, jeśli mediany dwóch grup były równe, ale zakres między kwartylami był 100 razy większy dla jednej populacji. Patrząc na medianę, można powiedzieć, że są one „tym samym rozkładem populacji”, podczas gdy w rzeczywistości byłyby bardzo różne. Nie wspominając o wielu trybach powodujących problemy ...
probabilityislogic
Jednak dla niektórych celów średnia jest istotna: płaca jest zmienną rozległą , co oznacza, że ​​sumy płac są znaczące. W przypadku pytań, w których całkowity dochód z płacy w jakiejś (pod) grupie jest istotny, środki są właściwe: sumę można odzyskać ze średniej, a nie z mediany.
kjetil b halvorsen
@kjetilbhalvorsen: Dlaczego więc nie wykorzystać sumy?
naught101
n
10

To, że wartość p jest prawdopodobieństwem, że hipoteza zerowa jest prawdziwa, a (1-p) jest prawdopodobieństwem, że hipoteza alternatywna jest prawdziwa, że ​​brak odrzucenia hipotezy zerowej oznacza, że ​​hipoteza alternatywna jest fałszywa itp.

Dikran Torbacz
źródło
1
1
Ciekawe, czy możesz podać mi odniesienie do przeczytania na ten temat?
Dikran Torbacz
2
(proszę bardzo) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] osobiście, choć uważam, że jest to interesujące, mam problem z pytaniem, dlaczego tylny rozkład współczynnika prawdopodobieństwa jest wielkością zainteresowanie.
Prawdopodobieństwo
10

W podobny sposób jak @dirkan - Zastosowanie wartości p jako formalnej miary dowodu prawdziwości hipotezy zerowej. Ma pewne dobre cechy heurystyczne i intuicyjnie dobre, ale zasadniczo jest niekompletną miarą dowodów, ponieważ nie odwołuje się do alternatywnej hipotezy. Chociaż dane mogą być mało prawdopodobne poniżej zera (co prowadzi do małej wartości p), dane mogą być jeszcze bardziej mało prawdopodobne przy alternatywnej hipotezie.

prawdopodobieństwo prawdopodobieństwa
źródło
Nie odpowiadam, ponieważ nie chcę zadawać sobie trudu, aby wymyślić jedno, a jeśli tak, to przebrnąć przez wszystkie już podane, aby upewnić się, że nie powtórzę! Ale myślę, że mogę być pomocny. Jest książka Gooda i Hardina pt. „Częste błędy w statystykach i jak ich unikać”. Można tam znaleźć wiele świetnych przykładów. Jest to popularna książka, która już wchodzi w swoje czwarte wydanie.
Michael Chernick
Również książka Altmana z Chapman & Hall / CRC „Practical Statistics in Medical Research” zawiera rozdział dotyczący literatury medycznej, w którym ujawniono wiele grzechów statystycznych, które miały miejsce w opublikowanych artykułach.
Michael Chernick
9

Wykorzystanie wykresów kołowych do zilustrowania częstotliwości względnych. Więcej tutaj .

Andrej
źródło
2
Dobrze byłoby dołączyć trochę uzasadnienia na stronie.
naught101
9

Wykorzystanie statystyki / prawdopodobieństwa w testowaniu hipotez do pomiaru „absolutnej prawdy”. Statystyki po prostu nie mogą tego zrobić, mogą być przydatne jedynie przy podejmowaniu decyzji między alternatywami , które muszą być określone „poza” paradygmatem statystycznym. Stwierdzenia takie jak „hipoteza zerowa jest potwierdzona przez statystyki” są po prostu niepoprawne; statystyki mówią tylko: „hipoteza zerowa jest faworyzowana przez dane, w porównaniu do hipotezy alternatywnej”. Jeśli następnie przyjmiesz, że hipoteza zerowa lub alternatywa musi być prawdziwa, możesz powiedzieć „zerowa okazała się prawdziwa”, ale jest to tylko trywialna konsekwencja twojego założenia, a nie dane wykazane przez dane.

prawdopodobieństwo prawdopodobieństwa
źródło
9

α=0.05

I podobnie jak (lub prawie taka sama) jak odpowiedź @ ogrisel , przeprowadzając wyszukiwanie w sieci i zgłaszając tylko najlepszy wynik.

Andrew
źródło
Myślę, że miałeś na myśli link do innego komiksu, choć to jest nieśmiertelne.
rolando2
Być może, jeśli dobrze pamiętam, co wtedy miałem na myśli: xkcd.com/882
Andrew
8

(Przy odrobinie szczęścia będzie to kontrowersyjne.)

Wykorzystanie podejścia Neymana-Pearsona do analizy statystycznej eksperymentów naukowych. Lub, co gorsza, używając źle zdefiniowanej hybrydy Neymana-Pearsona i Fishera.

Michael Lew
źródło
przepraszam, że jestem ignorantem, ale co jest nie tak z konstrukcją Neymana-Pearsona do analizy (wyników) eksperymentów naukowych?
Andre Holzner,
@Andre Myślę, że ta uwaga może być ściśle powiązana z inną oferowaną przez @Michael Lew gdzie indziej w tym wątku ( stats.stackexchange.com/questions/4551/... ).
whuber
8

Żądanie i być może uzyskanie schematu blokowego : Graficzna rzecz, w której mówisz, jaki jest poziom swoich zmiennych i jakiego rodzaju relacji szukasz, i podążasz za strzałkami w dół, aby uzyskać test marki lub statystykę marki . Czasami oferowany z tajemniczymi ścieżkami „parametrycznymi” i „nieparametrycznymi”.

sprzężonyprior
źródło