Uwzględnianie utrwalonych widoków wartości p

31

Czasami w raportach zamieszczam oświadczenie o wartościach p i innych dostarczonych statystykach wnioskowania. Mówię, że ponieważ próbka nie była przypadkowa, takie statystyki nie miałyby ścisłego zastosowania. Moje konkretne sformułowanie jest zwykle podane w przypisie:

„Podczas gdy, ściśle rzecz biorąc, wnioskowanie statystyczne ma zastosowanie tylko w kontekście losowego próbkowania, stosujemy konwencję w raportowaniu poziomów istotności i / lub przedziałów ufności jako dogodnych mierników, nawet w przypadku próbek nielosowych. Zobacz Wnioskowanie statystyczne Michaela Oakesa : komentarz dla społeczności i nauki behawioralne (NY: Wiley, 1986).

Kilka razy - raz dla recenzowanej pracy, raz lub dwa w środowisku nieakademickim - redaktor lub recenzent sprzeciwił się temu zrzeczeniu się, nazywając je mylącym, i uważał, że wnioski wnioskowania powinny być po prostu zgodne z opisem (i otrzymaj płaszcz władzy). Czy ktoś jeszcze napotkał ten problem i znalazł dobre rozwiązanie? Z jednej strony ludzkie rozumienie wartości p jest na ogół ponure, nawet w kontekście losowego próbkowania, więc być może nie ma to większego znaczenia, co mówimy. Z drugiej strony przyczynianie się do nieporozumień wydaje się stanowić jedną z części problemu. Powinienem dodać, że często mam do czynienia z badaniami ankietowymi, w których losowe przydzielanie nie ma zastosowania i gdzie symulacje Monte Carlo często nie rozwiązują problemu reprezentatywności.

rolando2
źródło
3
komentarz do recenzenta jest niezwykle smutny, można mieć nadzieję, że osoba na tym stanowisku przynajmniej nie przejawi otwarcie swojej niewiedzy, a przez to dodatkowo poprze błędną interpretację metody statystycznej.
richiemorrisroe
8
Popraw mnie, jeśli się mylę, ale losowość próbkowania po prostu wpływa na stopień uogólnienia wyników. Natomiast losowe przypisywanie jest bardziej krytyczną cechą wnioskowania przyczynowego.
Mike Lawrence
3
Mike, zgadzam się z tobą. Czy chodzi o to, aby przedłużyć dyskusję, czy też wskazać, że nie zgadzam się z czymś, co powiedziałem?
rolando2
@richiemorrisroe: głupotą byłoby oczekiwać od wszystkich recenzentów, ale przypuszczam, że można mieć nadzieję na przyszłość, w której możemy się tego spodziewać, i na pewno powinniśmy wywierać presję na wydawców, aby zrobili więcej, aby domagali się tego i egzekwowali niż obecnie. .Rolando, myślę, że Mike jest jedynie wyjaśnieniem, aby ujednoznacznić tę dyskusję od kwestii związanych z wnioskami przyczynowymi. Najwyraźniej niektórzy uważali to za pomocne, choć osobiście uważałem, że było to wystarczająco jasne. Jeśli mam rację, to niechcący mierzy zamieszanie innych na temat wartości p , co motywuje oryginalny post!
Nick Stauner

Odpowiedzi:

11

Rzeczywiście istnieje argument, który nie powinien obejmować wyłączenia odpowiedzialności. Szczerze mówiąc, znalazłem krótki traktat na temat natury wartości p w artykule w czasopiśmie, który byłby trochę odrażający, i przez chwilę musiałbym się zatrzymać i spróbować dowiedzieć się, czy zrobiłeś coś szczególnie… .esoteric ... uzasadnić poświęcenie tej przestrzeni do określonego punktu.

Zasadniczo, jako recenzent, nazwałbym to niepotrzebnym, ponieważ czytelnik powinien już wiedzieć, czym jest wartość p i co robi. Mogę nawet się temu sprzeciwić, ponieważ sporządzenie takiej notatki w rzeczywistości nie zapobiega żadnej z wielu zbrodni analizy i interpretacji, które towarzyszą wartościom p, a jedynie nakłada płaszcz „zaufaj mi, wiem, co robię”. To również trochę dziwne - „Zamierzam odważnie przeciwstawić się wartościom p, ale nie tak śmiałym, że ich nie zgłaszam”.

Kiedy rozważam „ugruntowane poglądy na wartości p”, jestem znacznie mniej zaniepokojony czymś takim, co napisałeś powyżej, a bardziej martwię się naciskami recenzentów na znaczenie statystyczne w celu opublikowania lub przedmiotem artykułu (umieść gwiazda po znalezieniu i nagle jest to wielka sprawa) lub mieszanie znaczenia statystycznego ze znaczeniem znaleziska.

Fomite
źródło
3
Nie sądzę, że to odpowiada OP. Zakładam, że @ rolando2 zgłasza inne statystyki, które są bardziej kluczowe dla jego dyskusji (np. Rozmiary efektów), i głównie zgłasza wartości p jako jeden ze sposobów uwzględnienia konwencjonalnych oczekiwań, nawet jeśli nie mają one ścisłego zastosowania. W związku z tym powinniśmy być zniechęcani do tego stopnia, w jakim zbyt dużo odczytujemy wartości p ; powinniśmy rozważyć jego motywację do wyłączenia odpowiedzialności. Czytelnicy nie wiedzą, co powinni; OP wspomina o tym. Zastrzeżenie promuje wątpliwości, a nie zaufanie. Nie jest dziwne sprzeciwianie się standardowi, który jest zgodny z nim; to nie jest odważna podstawa.
Nick Stauner
@NickStauner Nie rozumiem, w jaki sposób nie „odpowiada” na OP. Być może nie obsługuje tego, co chcą robić, ale moim zdaniem jest to zarówno dziwne zerwanie z faktyczną zawartością papieru, jak i bezużyteczne - „To źle, ale zamierzam żołnierza dalej, jakby to było tak, bo tego właśnie wszyscy oczekują ”nie mówi mi, czy zło ma znaczenie .
Fomite,
3
Pytanie PO: „Czy ktoś jeszcze napotkał ten problem i znalazł dobre rozwiązanie?” Twoja odpowiedź ignoruje dosłowne pytanie, aby odpowiedzieć na pomysł, i głównie zawiera opinie na temat tego, dlaczego pomysł należy znieść. Zaczynasz jednak sugerować konstruktywną krytykę pomysłu PO: wydaje się, że nie wydaje ci się, że cytat z Oakes mówi ci, dlaczego ma to znaczenie. Rozbuduję to trochę w odpowiedzi na swoje pytanie.
Nick Stauner,
12

Wykorzystanie wnioskowania statystycznego można uzasadnić nie tylko na podstawie modelu populacji, ale także na podstawie modelu randomizacji. Ten ostatni nie przyjmuje żadnych założeń dotyczących sposobu uzyskania próbki. W rzeczywistości Fisher był tym, który zasugerował, że model randomizacji powinien być podstawą wnioskowania statystycznego (w przeciwieństwie do Neymana i Pearsona). Zobacz na przykład:

Ernst, MD (2004). Metody permutacji: podstawa do dokładnego wnioskowania. Statistics Science, 19, 676-685. [link (otwarty dostęp)]

Ludbrook, J. & Dudley, H. (1998). Dlaczego testy permutacji przewyższają testy ti F w badaniach biomedycznych. American Statistician, 52, 127-132. [link (jeśli masz dostęp do JSTOR)]

W jakiś sposób wątpię jednak, czy redaktorzy lub recenzenci używali tego jako powodu nazywania waszego wyłączenia odpowiedzialności „mylącym”.

Wolfgang
źródło
1
Wolfgang - ciekawe i pomocne punkty. Powinienem był jednak wyjaśnić, że duża część mojej pracy dotyczy ankiet.
rolando2
7
Jeżeli głównym celem jest dokonanie pewnego wnioskowania na temat populacji, a mechanizm doboru próby ma taki charakter, że reprezentatywność próby jest wątpliwa, wówczas wszelkie wnioskowanie będzie również raczej wątpliwe. Zasadniczo można wnioskować tylko o tej części populacji, której mechanizm próbkowania zapewnia. Zasadniczo dokonane przez ciebie wnioski będą odpowiednie dla tej części populacji. To, czy ta część populacji Cię interesuje (lub czytelników), to inna kwestia.
Wolfgang,
7

pwartości są w rzeczywistości konieczne do zgłaszania, pomimo ich nieistotnej nieważności w problematycznym badaniu (klasa, do której należy zbyt wiele opublikowanych artykułów), można je zlekceważyć. Zastanów się nad skoncentrowaniem narracji - a może nawet wyłącznie - na rozmiarach efektów. Jeśli twoje badanie jest wystarczająco reprezentatywne, aby było użyteczne w informowaniu (nie powinno to wymagać całkowicie losowego pobierania próbek, należy jedynie zachować ostrożność przy ogólnej interpretacji), twoje rozmiary efektów powinny mieć szersze implikacje niż tylko wskazanie istnienia i kierunków zależności lub różnic. Skoncentrowanie dyskusji na rozmiarach efektów może ułatwić głębsze zrozumienie, w jakim stopniu relacje lub różnice mają znaczenie w sensie praktycznym, choć nadal należy to wziąć pod uwagę w kontekście przedmiotu badania (np.r=.03ppp

Inną, potencjalnie uzupełniającą opcją byłoby rozwinięcie przypisu. Zarówno opis problemu, jakiego doświadczyli recenzenci, jak i obecnie zaakceptowana odpowiedź na tej stronie, sugerują, że nie przekazano wystarczającej ilości informacji, aby wyjaśnić twoją motywację do włączenia przypisu, ani wystarczająco, aby zmotywować czytelnika do podążania za twoim cytatem do referencji że używasz tego tak zwięźle. Pojedyncze, dodatkowe zdanie, a nawet krótki cytat z referencji, może znacznie przyczynić się do wyjaśnienia wartości przypisu i zmotywowania czytelników do głębszego czytania. Najwyraźniej twój przypis jak wcześniej motywuje prostą, negatywną, lekceważącą reakcję na twoją zaniżoną próbę zakłócania ich samozadowolenia z powodu niewłaściwych założeń. Czytelnicy mogą być nieco mniej leniwi intelektualnie, jeśli nakarmisz je jedną lub dwiema głównymi kwestiami dotyczącymi problemów, które prawdopodobnie rutynowo przeoczają. Również w przypadku wielu szczególnych problemów zp

p

ppp

Referencje

- Goodman, SN (1992). Komentarz na temat replikacji, wartości P i dowodów. Statystyka w medycynie, 11 (7), 875–879.
- Goodman, SN (2001). Z P -values i Bayesa: Skromna propozycja. Epidemiology, 12 (3), 295–297. Źródło: http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Brudny tuzin: dwanaście błędnych wyobrażeń o wartości P. Seminaria z hematologii, 45 (3), 135–140. Źródło: http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., i Greenberg, DA (2007). Brak replikacji badań asocjacyjnych: „pseudo-awarie” do replikacji? Genetics in Medicine, 9 (6), 325–331. Źródło: http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH i Lombardi, CM (2009). Ostateczne załamanie się ram teoretycznych decyzji Neymana-Pearsona i powstanie neoFisherii. Annales Zoologici Fennici, 46 (5), 311–349. Źródło: http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Do P lub nie do P: O dowodowym charakterze wartości P i ich miejscu w wnioskach naukowych. arXiv: 1311.0081 [stat.ME]. Źródło:http://arxiv.org/abs/1311.0081 .
- Nuzzo, R. (2014, 12 lutego). Metoda naukowa: błędy statystyczne. Nature News, 506 (7487). Źródło: http://www.nature.com/news/scientific-method-statistic-errors-1.14700 .
- Rosenthal, R., Rosnow, RL i Rubin, DB (2000). Kontrasty i rozmiary efektów w badaniach behawioralnych: podejście korelacyjne. Cambridge University Press.
- Senn, S. (2001). Dwa okrzyki dla wartości P? Journal of Epidemiology and Biostatistics, 6 (2), 193–204. Źródło: http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf .
- Wagenmakers, EJ (2007). Praktyczne rozwiązanie wszechobecnych problemówwartości p . Biuletyn i przegląd psychonomiczny, 14 (5), 779–804. Źródło: http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .

Nick Stauner
źródło
3
Nie wszystkie krytyki wartości P są prawidłowe lub uzasadnione, pomimo ich gwałtowności. Powinieneś zobaczyć te dwa artykuły jako kilka kontrapunktów dla cytowanych komentarzy: Two Cheers for P Values ​​(autor: Stephen Senn) phil.vt.edu/dmayo/conference_2010/... ; To P or Not To P (przeze mnie) arxiv.org/abs/1311.0081
Michael Lew
1
Doskonały punkt! Dziękuję Ci! Lekko zredagowałem, aby uwzględnić twoje uwagi, i mogę je trochę edytować, gdy zrozumiem je wystarczająco dobrze, aby uwzględnić ich implikacje w pozostałej części tego, co powiedziałem. Właśnie dlatego uwielbiam Cross Validated ...
Nick Stauner
2
Czy masz jakieś eksperymentalne dowody na poparcie twierdzenia, że ​​założenie Edwardsa obejmuje wartości p? Uważam się za bardzo sceptycznego. Mój sposób analogii: widziałem kilka artykułów, które pokazują, że nawet doświadczeni badacze danych mają problem z oszacowaniem współczynnika korelacji z wykresu rozrzutu. Wygląda na to, że prosisz naukowców o wiele więcej, aby dowiedzieć się, co oznacza wartość ap pod względem prawdopodobieństwa. Twój argument na korzyść funkcji prawdopodobieństwa jest interesujący ... zazwyczaj wyglądają trochę jak rozkłady tylne, prawda?
russellpierce
2
@rpierce Nie mam eksperymentalnych dowodów na zrozumienie użytkowników metod statystycznych. Chciałbym jednak twierdzić, że przynajmniej niektóre z badań, które przeprowadzono, aby sprawdzić, czy naukowcy „rozumieją” wartości p, są fatalnie błędne, ponieważ nie zawierają wśród opcji prawdziwego, ewidentnie znaczącego opisu wartości p. Twoja analogia nie jest bliska, ponieważ fakt, że współczynniki korelacji nie są łatwe do oszacowania, nie jest tym samym problemem, co oszacowanie siły dowodów na podstawie wartości p.
Michael Lew
1
@rpierce Tylna funkcja gęstości prawdopodobieństwa z jednolitego przeora będzie proporcjonalna do funkcji prawdopodobieństwa.
Michael Lew