W ostatnim artykule Masicampo i Lalande (ML) zgromadzili dużą liczbę wartości p opublikowanych w wielu różnych badaniach. Zaobserwowali ciekawy skok w histogramie wartości p bezpośrednio na kanonicznym poziomie krytycznym wynoszącym 5%.
Na blogu prof. Wassermana znajduje się miła dyskusja na temat tego zjawiska ML:
http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/
Na jego blogu znajdziesz histogram:
Ponieważ poziom 5% jest konwencją, a nie prawem natury, co powoduje takie zachowanie empirycznego rozkładu opublikowanych wartości p?
Błąd nastawienia, systematyczne „dostosowanie” wartości p tuż powyżej kanonicznego poziomu krytycznego, czy co?
Odpowiedzi:
(1) Jak już wspomniano w @PeterFlom, jedno wyjaśnienie może dotyczyć problemu „szuflady plików”. (2) @Zen wspomniał także o przypadku, w którym autor (autorzy) manipulują danymi lub modelami (np. Pogłębianie danych ). (3) Nie testujemy jednak hipotez w sposób przypadkowy. Oznacza to, że hipotezy nie są wybierane przypadkowo, ale mamy (mniej lub bardziej silne) założenia teoretyczne.
Być może zainteresują Cię także prace Gerbera i Malhotry, którzy niedawno przeprowadzili badania w tej dziedzinie, stosując tak zwany „test suwmiarki”:
Czy standardy sprawozdawczości statystycznej mają wpływ na to, co jest publikowane? Bias publikacji w dwóch wiodących czasopismach o polityce
Bias publikacji w empirycznych badaniach socjologicznych: czy arbitralne poziomy istotności zniekształcają opublikowane wyniki?
Może Cię również zainteresować ten specjalny numer edytowany przez Andreasa Diekmanna:
źródło
Jednym z dotychczas brakujących argumentów jest elastyczność analizy danych zwana stopniami swobody badaczy. W każdej analizie należy podjąć wiele decyzji, gdzie ustawić kryterium wartości odstającej, jak przekształcić dane i ...
Zostało to niedawno poruszone w wpływowym artykule Simmonsa, Nelsona i Simonsohna:
Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Psychologia fałszywie dodatnia: nieujawniona elastyczność w gromadzeniu i analizie danych pozwala prezentować wszystko jako znaczące. Psychological Science , 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632
(Pamiętaj, że jest to ten sam Simonsohn odpowiedzialny za niektóre ostatnio wykryte przypadki oszustwa w psychologii społecznej, np. Wywiad , post na blogu )
źródło
Myślę, że jest to połączenie wszystkiego, co zostało już powiedziane. To bardzo interesujące dane i nigdy wcześniej nie myślałem o takim rozkładzie wartości p. Jeśli hipoteza zerowa jest prawdziwa, wartość p byłaby jednolita. Ale oczywiście przy opublikowanych wynikach nie zobaczymy jednolitości z wielu powodów.
Wykonujemy badanie, ponieważ oczekujemy, że hipoteza zerowa będzie fałszywa. Dlatego powinniśmy częściej otrzymywać znaczące wyniki.
Gdyby hipoteza zerowa była fałszywa tylko w połowie czasu, nie uzyskalibyśmy jednolitego rozkładu wartości p.
Problem z szufladą plików: Jak wspomniano, baliśmy się przesłać artykuł, gdy wartość p nie jest znacząca, np. Poniżej 0,05.
Wydawcy odrzucą artykuł z powodu mało znaczących wyników, mimo że zdecydowaliśmy się go przesłać.
Kiedy wyniki będą na granicy, zrobimy rzeczy (być może nie ze złośliwą intencją), aby uzyskać znaczenie. (a) zaokrąglić w dół do 0,05, gdy wartość p wynosi 0,053, (b) znaleźć obserwacje, które naszym zdaniem mogą być odstające, a po ich przesunięciu wartość p spada poniżej 0,05.
Mam nadzieję, że podsumowuje to wszystko, co zostało powiedziane w racjonalnie zrozumiały sposób.
Moim zdaniem interesujące jest to, że widzimy wartości p pomiędzy 0,05 a 0,1. Gdyby zasady publikowania odrzucały cokolwiek z wartościami p powyżej 0,05, prawy ogon odcinałby się przy 0,05. Czy to faktycznie odcięło się na 0,10? jeśli tak, to może niektórzy autorzy i niektóre czasopisma zaakceptują poziom istotności 0,10, ale nic wyższego.
Ponieważ wiele artykułów zawiera kilka wartości p (skorygowanych o wielokrotność lub nie), a artykuł jest akceptowany, ponieważ kluczowe testy były znaczące, możemy zobaczyć nieistotne wartości p uwzględnione na liście. Rodzi to pytanie „Czy wszystkie zgłoszone wartości pw dokumencie uwzględniono w histogramie?”
Dodatkowym spostrzeżeniem jest to, że częstotliwość publikowanych prac wykazuje znaczny trend wzrostowy, ponieważ wartość p spada znacznie poniżej 0,05. Może to wskazuje na to, że autorzy interpretują myślenie o wartości p <0,0001, jest o wiele bardziej godne publikacji. Myślę, że autor ignoruje lub nie zdaje sobie sprawy, że wartość p zależy w takim samym stopniu od wielkości próbki, jak i od wielkości wielkości efektu.
źródło