Duża wariancja rozkładu wartości p (argument w Taleb 2016)

17

Próbuję zrozumieć wielkie roszczenia zdjęcie wykonane w Taleb, 2016, meta-Dystrybucja standardowe wartości p .

W nim Taleb przedstawia następujący argument za niewiarygodnością wartości p (jak rozumiem):

Procedura estymacji działająca na punktach danych pochodzących z niektórych rozkładów wartości wyjściowych X wartość ap. Jeśli narysujemy n punktów z tego rozkładu i wyprowadzimy inną wartość p, możemy uśrednić te wartości p, uzyskując w limicie tak zwaną „prawdziwą wartość p”.nX

Ta „prawdziwa wartość p” wykazuje niepokojąco wysoką wariancję, tak że procedura rozkładu + z „prawdziwą wartością p” będzie 60% czasu podawać wartość p <0,05..12

Pytanie : jak można to pogodzić z tradycyjnym argumentem na korzyść p . Jak rozumiem, wartość p ma powiedzieć ci, jaki procent czasu twoja procedura da ci właściwy odstęp (lub cokolwiek innego). Jednak ten dokument wydaje się argumentować, że ta interpretacja wprowadza w błąd, ponieważ wartość p nie będzie taka sama, jeśli ponownie uruchomisz procedurę.

Czy brakuje mi sensu?

Lepidopterist
źródło
1
Czy potrafisz wyjaśnić, czym jest ten „tradycyjny argument”? Nie jestem pewien, czy jestem pewien, jaki argument rozważasz.
Glen_b
Pytanie jest interesujące i dotyczy literatury, w której CV ma nawet znacznik, łącząc wartości p, które możesz chcieć dodać, jeśli uważasz to za stosowne.
mdewey
1
Uważam, że pytanie dotyczące odtwarzalności wartości p może być bardzo blisko z tym związane. Być może przeprowadzona tam analiza jest podobna (lub nawet taka sama) jak wspomniana tutaj.
whuber

Odpowiedzi:

13

Wartość p jest zmienną losową.

H0 (przynajmniej dla statystyki o rozkładzie ciągłym) wartość p powinna mieć rozkład równomierny

H1

H0H1

H1

wprowadź opis zdjęcia tutaj

Dokładnie tak powinny się zachowywać wartości p - dla fałszywego zeru, gdy wzrasta wielkość próbki, wartości p powinny być bardziej skoncentrowane przy niskich wartościach, ale nic nie sugeruje, że rozkład wartości przyjmuje się, gdy popełnij błąd typu II - gdy wartość p jest wyższa od twojego poziomu istotności - powinna w jakiś sposób „zbliżyć się” do tego poziomu istotności.

α=0,05

Często pomocne jest zastanowienie się, co dzieje się zarówno z rozkładem dowolnej statystyki testowej, której używasz w ramach alternatywy, jak i nad tym, jak zastosowanie cdf pod zerą jako transformacja spowoduje zmianę rozkładu (która da rozkład wartości p w ramach konkretna alternatywa). Kiedy myślisz w tych kategoriach, często nie jest trudno zrozumieć, dlaczego zachowanie jest takie, jakie jest.

Problem, jak widzę, nie polega na tym, że istnieje jakiś nieodłączny problem z wartościami p lub testowaniem hipotez, jest raczej przypadek tego, czy test hipotez jest dobrym narzędziem dla twojego konkretnego problemu, czy też coś innego byłoby bardziej odpowiednie w każdym konkretnym przypadku - nie jest to sytuacja w przypadku szeroko zakrojonej polemiki, ale jedno z uważnego rozważenia rodzaju pytań, które rozwiązują testy hipotez i konkretnych potrzeb twojej okoliczności. Niestety rzadko rozważa się te kwestie - zbyt często pojawia się pytanie o formę „jakiego testu używam dla tych danych?” bez względu na to, jakie pytanie może być interesujące, nie mówiąc już o tym, czy jakiś test hipotez jest dobrym sposobem na rozwiązanie tego problemu.

Jedną z trudności jest to, że testy hipotez są zarówno źle rozumiane, jak i powszechnie stosowane; ludzie bardzo często myślą, że mówią nam rzeczy, których nie robią. Wartość p jest prawdopodobnie najbardziej niezrozumianą rzeczą w testach hipotez.

Glen_b - Przywróć Monikę
źródło
pnm
nnn
1
H1H1
3
n
3
+1. Jedną z powiązanych - i zabawnych - analiz, które przychodzą mi na myśl, jest to, co Geoff Cumming nazywa „tańcem wartości p”: patrz youtube.com/watch?v=5OL1RqHrZQ8 („taniec” ma miejsce po około 9 minutach) . Ta cała mała prezentacja w zasadzie podkreśla, jak zmienne są wartości p nawet dla stosunkowo dużej mocy. Nie do końca zgadzam się z głównym punktem Cumminga, że ​​przedziały ufności są o wiele lepsze niż wartości p (i nienawidzę , że nazywa to „nowymi statystykami”), ale myślę, że ta zmienność wielkości jest zaskakująca dla wielu osób i „taniec” to uroczy sposób na pokazanie tego.
ameba mówi Przywróć Monikę
11

Odpowiedź Glen_b jest natychmiastowa (+1; rozważ moje uzupełnienie). Artykuł, do którego odwołuje się Taleb, jest bardzo podobny do serii artykułów z literatury psychologicznej i statystycznej na temat tego, jakie informacje można uzyskać z analizy rozkładów wartości p (co autorzy nazywają krzywą p ; zobacz ich stronę za pomocą pęczek zasobów, włącznie z analizą krzywej aplikacji p- tu ).

Autorzy proponują dwa podstawowe zastosowania krzywej p:

  1. Możesz oszacować wartość dowodową literatury, analizując krzywą p literatury . To było ich pierwsze reklamowane zastosowanie krzywej p. Zasadniczo, jak opisuje Glen_b, gdy masz do czynienia z niezerowymi wielkościami efektów, powinieneś zobaczyć krzywe p, które są dodatnio pochylone poniżej konwencjonalnego progu p <0,05, ponieważ mniejsze wartości p powinny być bardziej prawdopodobne niż p- wartości bliższe p= 0,05, gdy efekt (lub grupa efektów) są „rzeczywiste”. W związku z tym można przetestować krzywą p pod kątem istotnego odchylenia dodatniego jako testu wartości dowodowej. I odwrotnie, programiści proponują, abyś mógł wykonać test ujemnego pochylenia (tj. Bardziej znaczący p-wartościowy niż mniejsze) jako sposób na sprawdzenie, czy dany zestaw efektów podlegał różnym wątpliwym praktykom analitycznym.
  2. Można obliczyć szacunkową metaanalityczną ocenę wielkości efektu opartą na publikacji, używając krzywej p z opublikowanymi wartościami p . Ten jest nieco trudniejszy do wyjaśnienia w zwięzły sposób, a zamiast tego poleciłbym, abyś zapoznał się z ich dokumentami skoncentrowanymi na szacowaniu wielkości efektu (Simonsohn, Nelson i Simmons, 2014a, 2014b) i sam zapoznał się z metodami. Zasadniczo jednak autorzy sugerują, że krzywa p może być wykorzystana do obejścia problemu efektu szuflady plików podczas przeprowadzania metaanalizy.

Tak więc, jeśli chodzi o twoje szersze pytanie:

jak można to pogodzić z tradycyjnym argumentem na rzecz wartości p?

Powiedziałbym, że metody takie jak Taleb (i inne) znalazły sposób na zmianę przeznaczenia wartości p, abyśmy mogli uzyskać przydatne informacje o całej literaturze poprzez analizę grup wartości p, podczas gdy jedna wartość p może być znacznie bardziej użyteczny.

Bibliografia

Simonsohn, U., Nelson, LD i Simmons, JP (2014a). Krzywa P: klucz do szuflady plików. Journal of Experimental Psychology: General , 143 , 534–547.

Simonsohn, U., Nelson, LD i Simmons, JP (2014b). Krzywa P i wielkość efektu: Korekta dla stronniczości publikacji przy użyciu tylko znaczących wyników. Perspectives on Psychological Science , 9 , 666-681.

Simonsohn, U., Simmons, JP i Nelson, LD (2015). Lepsze krzywe P: Zwiększenie odporności analizy krzywej P na błędy, oszustwa i ambitne hakowanie P, odpowiedź na pytanie Ulricha i Millera (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.

jsakaluk
źródło