Co powoduje nieciągłość w rozkładzie opublikowanych wartości p przy p <0,05?

27

W ostatnim artykule Masicampo i Lalande (ML) zgromadzili dużą liczbę wartości p opublikowanych w wielu różnych badaniach. Zaobserwowali ciekawy skok w histogramie wartości p bezpośrednio na kanonicznym poziomie krytycznym wynoszącym 5%.

Na blogu prof. Wassermana znajduje się miła dyskusja na temat tego zjawiska ML:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

Na jego blogu znajdziesz histogram:

Histogram opublikowanych wartości p

Ponieważ poziom 5% jest konwencją, a nie prawem natury, co powoduje takie zachowanie empirycznego rozkładu opublikowanych wartości p?

Błąd nastawienia, systematyczne „dostosowanie” wartości p tuż powyżej kanonicznego poziomu krytycznego, czy co?

Zen
źródło
11
Istnieją co najmniej 2 rodzaje wyjaśnień: 1) „problem z szufladą plików” - publikowane są badania z p <.05, powyższe nie, więc tak naprawdę jest to mieszanka dwóch dystrybucji 2) Ludzie manipulują rzeczami, być może podświadomie , aby uzyskać p <.05
Peter Flom - Przywróć Monikę
3
Cześć @Zen. Tak, dokładnie tego rodzaju rzeczy. Istnieje silna tendencja do robienia takich rzeczy. Jeśli nasza teoria zostanie potwierdzona, rzadziej będziemy szukać problemów statystycznych, niż gdyby tak nie było. To wydaje się być częścią naszej natury, ale jest coś, przed czym należy się wystrzegać.
Peter Flom - Przywróć Monikę
@Zen Być może zainteresuje Cię ten post na blogu Andrew Gelmana, w którym wspomniano o niektórych badaniach, w których stwierdzono, że nie ma stronniczości publikacji w badaniach dotyczących stronniczości publikacji ...! andrewgelman.com/2012/04/…
smillig
1
Interesujące byłoby ponowne obliczenie wartości p na podstawie artykułów w czasopismach, które wyraźnie odrzucają artykuły oparte na wartości p, takie jak kiedyś Epidemiologia (i w pewnym sensie nadal tak robi). Zastanawiam się, czy to się zmieni, jeśli czasopismo wydało i wydało oświadczenie, że to nie obchodzi, czy też recenzenci / autorzy nadal przeprowadzają mentalne testy ad hoc oparte na przedziałach ufności.
Fomite
4
Jak wyjaśniono na blogu Larry'ego, jest to zbiór opublikowanych wartości p, a nie losowa próbka wartości p pobranych ze Świata wartości p. Nie ma zatem powodu, aby na zdjęciu pojawiał się równomierny rozkład, nawet jako część mieszanki wzorowanej w poście Larry'ego.
Xi'an

Odpowiedzi:

14

(1) Jak już wspomniano w @PeterFlom, jedno wyjaśnienie może dotyczyć problemu „szuflady plików”. (2) @Zen wspomniał także o przypadku, w którym autor (autorzy) manipulują danymi lub modelami (np. Pogłębianie danych ). (3) Nie testujemy jednak hipotez w sposób przypadkowy. Oznacza to, że hipotezy nie są wybierane przypadkowo, ale mamy (mniej lub bardziej silne) założenia teoretyczne.

Być może zainteresują Cię także prace Gerbera i Malhotry, którzy niedawno przeprowadzili badania w tej dziedzinie, stosując tak zwany „test suwmiarki”:

Może Cię również zainteresować ten specjalny numer edytowany przez Andreasa Diekmanna:

Bernd Weiss
źródło
10

Jednym z dotychczas brakujących argumentów jest elastyczność analizy danych zwana stopniami swobody badaczy. W każdej analizie należy podjąć wiele decyzji, gdzie ustawić kryterium wartości odstającej, jak przekształcić dane i ...

Zostało to niedawno poruszone w wpływowym artykule Simmonsa, Nelsona i Simonsohna:

Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Psychologia fałszywie dodatnia: nieujawniona elastyczność w gromadzeniu i analizie danych pozwala prezentować wszystko jako znaczące. Psychological Science , 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632

(Pamiętaj, że jest to ten sam Simonsohn odpowiedzialny za niektóre ostatnio wykryte przypadki oszustwa w psychologii społecznej, np. Wywiad , post na blogu )

Henrik
źródło
8

Myślę, że jest to połączenie wszystkiego, co zostało już powiedziane. To bardzo interesujące dane i nigdy wcześniej nie myślałem o takim rozkładzie wartości p. Jeśli hipoteza zerowa jest prawdziwa, wartość p byłaby jednolita. Ale oczywiście przy opublikowanych wynikach nie zobaczymy jednolitości z wielu powodów.

  1. Wykonujemy badanie, ponieważ oczekujemy, że hipoteza zerowa będzie fałszywa. Dlatego powinniśmy częściej otrzymywać znaczące wyniki.

  2. Gdyby hipoteza zerowa była fałszywa tylko w połowie czasu, nie uzyskalibyśmy jednolitego rozkładu wartości p.

  3. Problem z szufladą plików: Jak wspomniano, baliśmy się przesłać artykuł, gdy wartość p nie jest znacząca, np. Poniżej 0,05.

  4. Wydawcy odrzucą artykuł z powodu mało znaczących wyników, mimo że zdecydowaliśmy się go przesłać.

  5. Kiedy wyniki będą na granicy, zrobimy rzeczy (być może nie ze złośliwą intencją), aby uzyskać znaczenie. (a) zaokrąglić w dół do 0,05, gdy wartość p wynosi 0,053, (b) znaleźć obserwacje, które naszym zdaniem mogą być odstające, a po ich przesunięciu wartość p spada poniżej 0,05.

Mam nadzieję, że podsumowuje to wszystko, co zostało powiedziane w racjonalnie zrozumiały sposób.

Moim zdaniem interesujące jest to, że widzimy wartości p pomiędzy 0,05 a 0,1. Gdyby zasady publikowania odrzucały cokolwiek z wartościami p powyżej 0,05, prawy ogon odcinałby się przy 0,05. Czy to faktycznie odcięło się na 0,10? jeśli tak, to może niektórzy autorzy i niektóre czasopisma zaakceptują poziom istotności 0,10, ale nic wyższego.

Ponieważ wiele artykułów zawiera kilka wartości p (skorygowanych o wielokrotność lub nie), a artykuł jest akceptowany, ponieważ kluczowe testy były znaczące, możemy zobaczyć nieistotne wartości p uwzględnione na liście. Rodzi to pytanie „Czy wszystkie zgłoszone wartości pw dokumencie uwzględniono w histogramie?”

Dodatkowym spostrzeżeniem jest to, że częstotliwość publikowanych prac wykazuje znaczny trend wzrostowy, ponieważ wartość p spada znacznie poniżej 0,05. Może to wskazuje na to, że autorzy interpretują myślenie o wartości p <0,0001, jest o wiele bardziej godne publikacji. Myślę, że autor ignoruje lub nie zdaje sobie sprawy, że wartość p zależy w takim samym stopniu od wielkości próbki, jak i od wielkości wielkości efektu.

Michael R. Chernick
źródło