Próbuję zrozumieć wielkie roszczenia zdjęcie wykonane w Taleb, 2016, meta-Dystrybucja standardowe wartości p .
W nim Taleb przedstawia następujący argument za niewiarygodnością wartości p (jak rozumiem):
Procedura estymacji działająca na punktach danych pochodzących z niektórych rozkładów wartości wyjściowych X wartość ap. Jeśli narysujemy n punktów z tego rozkładu i wyprowadzimy inną wartość p, możemy uśrednić te wartości p, uzyskując w limicie tak zwaną „prawdziwą wartość p”.
Ta „prawdziwa wartość p” wykazuje niepokojąco wysoką wariancję, tak że procedura rozkładu + z „prawdziwą wartością p” będzie 60% czasu podawać wartość p <0,05.
Pytanie : jak można to pogodzić z tradycyjnym argumentem na korzyść . Jak rozumiem, wartość p ma powiedzieć ci, jaki procent czasu twoja procedura da ci właściwy odstęp (lub cokolwiek innego). Jednak ten dokument wydaje się argumentować, że ta interpretacja wprowadza w błąd, ponieważ wartość p nie będzie taka sama, jeśli ponownie uruchomisz procedurę.
Czy brakuje mi sensu?
źródło
Odpowiedzi:
Wartość p jest zmienną losową.
Dokładnie tak powinny się zachowywać wartości p - dla fałszywego zeru, gdy wzrasta wielkość próbki, wartości p powinny być bardziej skoncentrowane przy niskich wartościach, ale nic nie sugeruje, że rozkład wartości przyjmuje się, gdy popełnij błąd typu II - gdy wartość p jest wyższa od twojego poziomu istotności - powinna w jakiś sposób „zbliżyć się” do tego poziomu istotności.
Często pomocne jest zastanowienie się, co dzieje się zarówno z rozkładem dowolnej statystyki testowej, której używasz w ramach alternatywy, jak i nad tym, jak zastosowanie cdf pod zerą jako transformacja spowoduje zmianę rozkładu (która da rozkład wartości p w ramach konkretna alternatywa). Kiedy myślisz w tych kategoriach, często nie jest trudno zrozumieć, dlaczego zachowanie jest takie, jakie jest.
Problem, jak widzę, nie polega na tym, że istnieje jakiś nieodłączny problem z wartościami p lub testowaniem hipotez, jest raczej przypadek tego, czy test hipotez jest dobrym narzędziem dla twojego konkretnego problemu, czy też coś innego byłoby bardziej odpowiednie w każdym konkretnym przypadku - nie jest to sytuacja w przypadku szeroko zakrojonej polemiki, ale jedno z uważnego rozważenia rodzaju pytań, które rozwiązują testy hipotez i konkretnych potrzeb twojej okoliczności. Niestety rzadko rozważa się te kwestie - zbyt często pojawia się pytanie o formę „jakiego testu używam dla tych danych?” bez względu na to, jakie pytanie może być interesujące, nie mówiąc już o tym, czy jakiś test hipotez jest dobrym sposobem na rozwiązanie tego problemu.
Jedną z trudności jest to, że testy hipotez są zarówno źle rozumiane, jak i powszechnie stosowane; ludzie bardzo często myślą, że mówią nam rzeczy, których nie robią. Wartość p jest prawdopodobnie najbardziej niezrozumianą rzeczą w testach hipotez.
źródło
Odpowiedź Glen_b jest natychmiastowa (+1; rozważ moje uzupełnienie). Artykuł, do którego odwołuje się Taleb, jest bardzo podobny do serii artykułów z literatury psychologicznej i statystycznej na temat tego, jakie informacje można uzyskać z analizy rozkładów wartości p (co autorzy nazywają krzywą p ; zobacz ich stronę za pomocą pęczek zasobów, włącznie z analizą krzywej aplikacji p- tu ).
Autorzy proponują dwa podstawowe zastosowania krzywej p:
Tak więc, jeśli chodzi o twoje szersze pytanie:
Powiedziałbym, że metody takie jak Taleb (i inne) znalazły sposób na zmianę przeznaczenia wartości p, abyśmy mogli uzyskać przydatne informacje o całej literaturze poprzez analizę grup wartości p, podczas gdy jedna wartość p może być znacznie bardziej użyteczny.
Bibliografia
Simonsohn, U., Nelson, LD i Simmons, JP (2014a). Krzywa P: klucz do szuflady plików. Journal of Experimental Psychology: General , 143 , 534–547.
Simonsohn, U., Nelson, LD i Simmons, JP (2014b). Krzywa P i wielkość efektu: Korekta dla stronniczości publikacji przy użyciu tylko znaczących wyników. Perspectives on Psychological Science , 9 , 666-681.
Simonsohn, U., Simmons, JP i Nelson, LD (2015). Lepsze krzywe P: Zwiększenie odporności analizy krzywej P na błędy, oszustwa i ambitne hakowanie P, odpowiedź na pytanie Ulricha i Millera (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.
źródło