Obfitość wartości P przy braku hipotezy

28

Interesuję się epidemiologią. Nie jestem statystykiem, ale sam próbuję przeprowadzać analizy, chociaż często napotykam trudności. Pierwszą analizę wykonałem 2 lata temu. Wartości P zostały uwzględnione wszędzie w moich analizach (po prostu zrobiłem to, co robili inni badacze), od tabel opisowych po analizy regresji. Stopniowo statystycy pracujący w moim mieszkaniu przekonywali mnie do pominięcia wszystkich (!) Wartości p, z wyjątkiem tych, z których naprawdę mam hipotezę.

Problem polega na tym, że wartości p są obfite w publikacjach z badań medycznych. Konwencjonalne jest umieszczanie wartości p na zdecydowanie zbyt wielu liniach; dane opisowe średnich, median lub cokolwiek zwykle idzie w parze z wartościami p (test t-Studenta, Chi-kwadrat itp.).

Niedawno przesłałem artykuł do czasopisma i odmówiłem (grzecznie) dodania wartości p do mojej tabeli opisowej „podstawowej”. Artykuł został ostatecznie odrzucony.

Aby to zilustrować, zobacz poniższy rysunek; jest to tabela opisowa z najnowszego opublikowanego artykułu w szanowanym czasopiśmie chorób wewnętrznych: wprowadź opis zdjęcia tutaj

Statystycy są w większości (jeśli nie zawsze) zaangażowani w przegląd tych manuskryptów. Tak więc laicy tacy jak ja oczekują, że nie znajdą żadnych wartości p, w których nie ma hipotezy. Ale są obfite, ale przyczyna tego pozostaje dla mnie nieuchwytna. Trudno mi uwierzyć, że to ignorancja.

Zdaję sobie sprawę, że jest to graniczne pytanie statystyczne. Ale szukam uzasadnienia tego zjawiska.

Adam Robinsson
źródło
12
Wartość p bez hipotezy jest z natury błędna. Co oznacza wartość p, nawet jeśli nie masz hipotezy?
jameselmore
3
Czy możesz podać przykłady osób stosujących wartości p bez jakiejkolwiek hipotezy? To nie jest jasne.
ameba mówi Przywróć Monikę
4
@amoeba "" Problem polega na tym, że wartości p są wszędzie w każdym czasopiśmie medycznym. Konwencjonalne jest umieszczanie wartości p w każdym wierszu, w którym opisano średnie, mediany lub proporcje. ”„ Zwykle są to proste testy dokładności Fishera lub testy chi-kwadrat pod kątem różnic, z pytaniem, czy którykolwiek wiersz tabeli podsumowującej ma znaczącą różnicę . Sugerowana hipoteza jest taka, że ​​każdy wiersz ma znaczenie.
Karl
2
Podejrzewam, że główną siłą jest to, że wartości p dają mylące wrażenie ostateczności danego twierdzenia. Wydawcy tych czasopism powinni pokochać to, ponieważ oznacza to, że posiadają informacje, które będą cenne w najbliższej przyszłości. Współbieżna kultura braku finansowania lub proponowania badań replikacji pomaga również zminimalizować obecność kontrowersyjnych sprzecznych wyników. Zastanawiam się, co się stanie, jeśli ludzie w końcu zdadzą sobie sprawę, że posiadane przez nich informacje składają się głównie z „bezcelowej działalności” (termin @ glen_b). Nawet jeśli wmieszane są przydatne rzeczy ... heurystyka każe ci unikać.
Livid,
1
[at] jameselmore: Zadaję to samo pytanie; to nie ma sensu, ale jest stosowane codziennie. [at] amoeba: Losowo wybieram jedno z czasopism, które czytam, uderzyłem w najnowszy opublikowany artykuł i znalazłem to: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: dokładnie, dziękuję. @Momo: Zrobiłem teraz wysiłek, aby poprawić sformułowanie pytania. Myślę, że to ważne pytanie i doceniam twoją sugestię. [at] Livid: dziękuję za ten komentarz. Rzeczywiście wielu badaczy mogło źle zrozumieć cały punkt wartości p.
Adam Robinsson,

Odpowiedzi:

29

Oczywiście nie muszę ci mówić, co to jest wartość p, ani dlaczego nadmierne poleganie na nich jest problemem; najwyraźniej już dość dobrze rozumiesz te rzeczy.

Publikując masz dwie konkurencyjne presje.

Pierwszą - i którą powinieneś naciskać przy każdej rozsądnej okazji - jest robienie tego, co ma sens.

Ostatecznie druga to potrzeba opublikowania. Niewielkie korzyści przyniosą ci, jeśli nikt nie zobaczy twoich wysiłków na rzecz reformy okropnej praktyki.

Zamiast więc całkowicie tego unikać:

  • zrób tak mało bezsensownej aktywności, jak tylko możesz uciec, a to wciąż zostanie opublikowane

  • może zawierać wzmiankę o tym ostatnim artykule na temat metod Natury [1], jeśli uważasz, że to pomoże, a może lepiej jedno lub więcej innych odniesień. Powinno to przynajmniej pomóc ustalić, że istnieje pewien sprzeciw wobec prymatu wartości p.

  • rozważ inne czasopisma, jeśli inny byłby odpowiedni

Czy to samo dotyczy innych dyscyplin?

Problem nadmiernego wykorzystania wartości p występuje w wielu dyscyplinach (może to być nawet problem, gdy nie jest pewne hipotezy), ale jest znacznie mniej powszechne niż w niektórych innych. Niektóre dyscypliny mają problemy z wartością p-itis, a problemy, które powodują, mogą ostatecznie doprowadzić do nieco przesadzonych reakcji [2] (oraz w mniejszym stopniu [1], a przynajmniej w niektórych miejscach, kilku innych także).

Wydaje mi się, że istnieje wiele różnych powodów, ale nadmierne poleganie na wartościach p wydaje się nabierać własnego rozmachu - jest coś w powiedzeniu „znaczący” i odrzuceniu wartości zerowej, którą ludzie wydają się uważać za bardzo atrakcyjną; różne dyscypliny (np. patrz [3] [4] [5] [6] [7] [8] [9] [10] [11]) (z różnym powodzeniem) walczyły z problemem nadmiernego polegania na wartości p (szczególnie = 0,05) przez wiele lat i zawierały wiele różnych sugestii - nie wszystkie z nimi się zgadzam, ale uwzględniam różnorodne poglądy, aby dać poczucie różnych rzeczy, które ludzie musieli mówić.α

Niektórzy opowiadają się za skupieniem się na przedziałach ufności, niektórzy opowiadają się za wielkościami efektów, niektórzy opowiadają się za metodami bayesowskimi, niektórzy za mniejszymi wartościami p, inni za unikaniem używania wartości p w określony sposób i tak dalej. Istnieje wiele różnych poglądów na to, co robić zamiast tego, ale między nimi jest dużo materiału na temat problemów z poleganiem na wartościach p, przynajmniej sposób, w jaki jest to dość często wykonywane.

Zobacz te referencje, aby uzyskać wiele dalszych referencji. To tylko próbka - można znaleźć o wiele więcej referencji. Kilku autorów podaje powody, dla których uważają, że wartości p są powszechne.

Niektóre z tych odniesień mogą być przydatne, jeśli chcesz dyskutować z redaktorem.

[1] Halsey LG, Curran-Everett D., Vowler SL i Drummond GB (2015),
„Zmienna wartość P generuje nie powtarzalne wyniki”,
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / journal / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow, D. and Marks, M. (2015),
Editorial,
Basic and Applied Social Psychology , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Cohen, J. (1990),
Things I learn (do tej pory),
American Psychologist , 45 (12), 1304–1312.

[4] Cohen, J. (1994),
Ziemia jest okrągła (p <.05),
American Psychologist , 49 (12), 997–1003.

[5] Valen E. Johnson (2013),
Zmienione standardy dla dowodów statystycznych PNAS , vol. 110, nr 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
Co wierzyć: Bayesowskie metody analizy danych,
Trendy w kognitywistyce 14 (7), 293-300

[7] Ioannidis, J. (2005)
Dlaczego większość opublikowanych wyników badań jest fałszywa,
PLoS Med. Sierpnia; 2 (8): e124.
doi: 10.1371 / journal.pmed.0020124

[8] Gelman, A. (2013), P Values ​​and Statistics Practice,
Epidemiology Vol. 24 , nr 1, 69–72 stycznia

[9] Gelman, A. (2013),
„Problem z wartościami p polega na tym, jak są one używane”,
(Dyskusja na temat „W obronie wartości P”, Paul Murtaugh, dla Ekologii ) niepublikowany
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
Błędy statystyczne: Wartości P, „złoty standard” ważności statystycznej, nie są tak wiarygodne, jak przypuszcza wielu naukowców,
News and Comment,
Nature , Vol. 506 (13), 150–152

[11] Wagenmakers E, (2007)
Praktyczne rozwiązanie wszechobecnych problemów związanych z wartościami p,
Psychonomic Bulletin & Review 14 (5), 779-804

Glen_b - Przywróć Monikę
źródło
7
+1. Przeczytałem ten artykuł Nature Methods [1] kolejny tydzień i nie jestem pewien, czy bardzo go lubię. Zasadniczo twierdzą, że wartości p mogą być bardzo zmienne w testach niskiej mocy (patrz także „taniec wartości p” na youtube) - coś, co jest oczywiście prawdą i na co należy podkreślić. Wnioskują, że wartości p są „złe” (tytuł brzmi dość ostro) i że ludzie powinni stosować przedziały ufności, które są „dobre”. Ale oczywiście przedziały ufności są również bardzo zmienne przy niskiej mocy! Sytuacja na ich rysunku 6 (po lewej) nie wygląda mi lepiej niż na rysunku 2.
ameba mówi Przywróć Monikę
2
@amoeba Nie powiem, że się z tobą nie zgadzam - nie mogę się z tym zgodzić; niemniej jednak istnieją pewne punkty, które mogą być przydatne dla PO. Właściwie przypomniałeś mi o zmianie, którą chciałem wprowadzić, ale o której zapomniałeś.
Glen_b
3
Tak, zgadzam się jednak z potencjalną użytecznością - szczególnie dlatego, że Metody Przyrodnicze są na tyle godne szacunku, że ludzie mogą być może przekonani przez „autorytet”. Chciałem tylko ostrzec OP przed przyjęciem wszystkiego za pewnik (ich matematyka jest w porządku, mówię tutaj o wnioskach / interpretacji).
ameba mówi Przywróć Monikę
1
W tym kontekście interesujący jest także Wilkinson i grupa zadaniowa do wnioskowania statystycznego, metody statystyczne w czasopismach psychologicznych, amerykański psycholog , tom. 54, nr 8, 594-604, 1999.
A. Donda,
Glen_b, opublikowałem pytanie dotyczące jednego z dziwniejszych roszczeń w artykule „Fickle P”: stats.stackexchange.com/questions/250269 - bardzo doceniłbym twój wgląd.
ameba mówi Przywróć Monikę
10

Wartość p, lub bardziej ogólnie, test istotności hipotezy zerowej (NHST), powoli przybiera coraz mniejszą wartość. Do tego stopnia, że ​​zaczęło być zakazane w czasopismach.

Większość ludzi nie rozumie, co tak naprawdę mówi nam wartość p i dlaczego nam to mówi, nawet jeśli jest używana wszędzie.

Problem polega na tym, że wartość p mówi nam a nie , która jest bardziej informacyjna. Ten ostatni obejmuje wykorzystanie wnioskowania bayesowskiego i zapewnia silniejszą podstawę do wniosków z kontroli modelu.P(Data|H0)P(H0|Data)

Prawdopodobieństwo, że model jest prawdziwy / istotny, biorąc pod uwagę dane, które zaobserwowaliśmy, ma silniejsze implikacje niż prawdopodobieństwo, że nasze dane pasują do modelu .H0H0

zszyty
źródło
1
Dodałbym, że P (dane H0 |) ma znaczenie tylko wtedy, gdy H0 ma znaczenie. Badania należy zaprojektować i przedstawić w taki sposób, aby wykluczyć inne nieciekawe wyjaśnienia wyników (stronniczość, zaniechania, różnice wyjściowe) ponad przypadkiem. Również nawet idealnie oślepiony RCT o znacznej wielkości efektu mówi tylko, że zmierzono coś interesującego. Dowiedzenie się, czy zmierzyłeś rzecz, o którą się naprawdę martwisz, to kolejna przesadna kwestia często spotykana wraz z obsesją na punkcie wartości p.
Livid,
8

Czy to samo dotyczy innych dyscyplin? Jaki jest powód obsesji na punkcie wartości p?

Greenwald i in. (1996) próbują poradzić sobie z tym pytaniem dotyczącym psychologii. Co się tyczy również zastosowania NHST do różnic wyjściowych, przypuszczalnie redaktorzy (słusznie lub niesłusznie) zdecydują, że „nieistotne” różnice podstawowe nie mogą wyjaśnić wyników, podczas gdy „znaczące” mogą wyjaśnić wyniki. Jest to podobne do „Powodu 1” oferowanego przez Greenwald i in. :

Dlaczego NHT pozostaje popularne?

„Dlaczego NHT nie poddaje się krytyce? Z braku lepszej odpowiedzi kuszące jest przypisywanie trwałości NHT brakowi charakteru naukowców behawioralnych. Niechęć naukowców behawioralnych do rezygnacji z winy z przyjemności uzyskania możliwie fałszywych odrzuconych hipotez zerowych może być jak niechęć pijącego do rezygnacji z nawyku koktajlu przed kolacją ... ”

Powód I: HT zapewnia dychotomiczny wynik

„Ze względu na powszechne przyjęcie konwencji, która p <0,05 przekłada się na„ istotne statystycznie ”, NHT można wykorzystać do uzyskania dychotomicznej odpowiedzi (odrzucić lub nie odrzucić) na pytanie o hipotezę zerową. Często można to uznać za jako przydatna odpowiedź na pytania teoretyczne, które są wyrażone raczej w kierunku prognozowania niż w odniesieniu do oczekiwanej wartości parametru ... ”

Powód 2: Wartość p jako sensowne tłumaczenie na wspólny język dla statystyk testowych

„W przeciwieństwie do wszystkiego, co można postrzegać tak bezpośrednio z wartości t, F lub r (wraz z powiązanym df), miara zaskoczenia wartości ap jest po prostu uchwycona przez liczbę kolejnych zer po prawej stronie jej miejsca po przecinku ...”

Powód 3: Wartość p stanowi miarę pewności siebie w „powtarzalności odrzuconych hipotez odrzuconych

„[U] w przeciwieństwie do wielkości efektu (lub przedziału ufności), wartość ap wynikająca z NHT jest monotonicznie powiązana z oszacowaniem powtarzalności stwierdzenia o wartości innej niż null. W tym stwierdzeniu zamierzona jest replikacja (która została zdefiniowana bardziej formalnie tuż poniżej) tylko w sensie NHT powtarzania konkluzji odrzucenia i odrzucenia, a nie w szacunku bliskości między szacunkami punktowymi lub przedziałowymi. ”

Wielkości efektów i wartości p: co należy zgłaszać, a co powielać? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS I DONALD GUTHRIE. Psychophysiology, 33 (1996). 175–183. Cambridge University Press. Wydrukowano w USA. Copyright O 1996 Towarzystwo badań psychofizjologicznych

Wściekły
źródło
dziękuję za te ważne komentarze, które z pewnością wykorzystam do dyskusji z recenzentami następnym razem.
Adam Robinsson
6

Wartości p dostarczają informacji o różnicach między dwiema grupami wyników („leczenie” vs. „kontrola”, „A” vs. „B” itd.) Dla próbek z dwóch populacji. Charakter różnicy jest sformalizowany w sformułowaniu hipotez - np. „Średnia z A jest większa niż średnia z B”. Niskie wartości p sugerują, że różnice nie są spowodowane przypadkową zmiennością, podczas gdy wysokie wartości p sugerują, że różnic w dwóch próbkach nie można odróżnić od różnic, które mogą wynikać po prostu z losowej zmienności. To, co jest „niskie” lub „wysokie” dla wartości p, było w przeszłości kwestią konwencji i smaku, a nie ustalone przez rygorystyczną logikę lub analizę dowodów.

Warunkiem zastosowania wartości p jest to, że dwie grupy wyników są naprawdę porównywalne, a mianowicie, że jedyne źródło różnic między nimi dotyczy zmiennej, którą oceniasz. Jako przesadny przykład wyobraź sobie, że masz statystyki dotyczące dwóch chorób w dwóch przedziałach czasowych - A: śmiertelność z powodu cholery wśród mężczyzn w brytyjskich więzieniach 1920–1930 i B: zakażenie malarią w Nigerii 1960–1970. Obliczenie wartości p z tych dwóch zestawów danych byłoby raczej absurdalne. Otóż, jeśli A: śmiertelność z powodu cholery wśród mężczyzn w brytyjskich więzieniach, którzy nie są leczeni, w porównaniu z B: śmiertelność z powodu cholery wśród mężczyzn w brytyjskich więzieniach leczonych nawadnianiem, to masz podstawę do solidnej hipotezy statystycznej.

Najczęściej osiąga się to poprzez staranne zaprojektowanie eksperymentu, staranne zaprojektowanie ankiety lub staranne zbieranie danych historycznych itp. Ponadto różnice między tymi dwoma wynikami muszą zostać sformalizowane w hipotezy zawierające statystyki przykładowe - często próby średnie, ale mogą również być przykładowymi wariancjami lub innymi przykładowymi statystykami. Możliwe jest również tworzenie hipotez zestawiających porównanie dwóch rozkładów próbek jako całości, stosując dominację stochastyczną. To są rzadkie.

Kontrowersje wokół wartości p dotyczą „tego, co jest naprawdę znaczące” dla badań? Tu właśnie pojawiają się rozmiary efektów. Zasadniczo rozmiar efektu jest wielkością różnicy między dwiema grupami. Możliwe jest posiadanie dużego znaczenia statystycznego (niska wartość p -> nie z powodu zmienności losowej), ale także małej wielkości efektu (bardzo mała różnica w wielkości). Gdy rozmiary efektów są bardzo duże, dopuszczenie nieco wyższych wartości p może być OK.

Większość dyscyplin bardzo mocno przesuwa się teraz w kierunku raportowania wielkości efektów i zmniejsza lub minimalizuje rolę wartości p. Zachęcają również bardziej opisowe statystyki dotyczące rozkładów próbek. Niektóre podejścia, w tym statystyki bayesowskie, całkowicie eliminują wartości p.


Moja odpowiedź jest skrócona i uproszczona. Istnieje wiele artykułów na ten temat, z którymi można się zapoznać, aby uzyskać więcej szczegółów, uzasadnień i szczegółów, w tym:

MrMeritology
źródło
@MerMeritology dziękuję za dostarczenie tych ważnych referencji. Przeczytam je jak najszybciej!
Adam Robinsson
6

„Więc laicy tacy jak ja oczekują, że nie znajdą żadnych wartości p, w których nie ma hipotezy”.

Pośrednio PO twierdzi, że w konkretnej Tabeli, którą przedstawia, nie ma żadnych hipotez towarzyszących zgłaszanym wartościom p. Aby usunąć to małe zamieszanie, z pewnością istnieją zerowe hipotezy, ale są one raczej ... pośrednio wymienione (dla oszczędności przestrzeni, jak sądzę).

„Wartość p” jest warunkowym prawdopodobieństwem, powiedzmy, dla testu „prawego ogona”,

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

gdzie jest stosowaną statystyką, jest funkcją rozkładu szumulacyjnego, która charakteryzuje prawdopodobieństwa związane z warunkiem, że jest prawdziwe, a jest wartością otrzymaną przez wykorzystanie próbki pod ręką. Oczywiście, dla testu miała sens, musi być tak, że statystyka jest takie, a hipoteza zerowa jest taki, że rozkład uwarunkowane jest prawdziwe, jest inna (lub inaczej parametryzowane, gdy oboje należą do ta sama rodzina) z jego dystrybucji odF T | H 0 ( t H 0 ) T H 0 t ( S ) T T H 0 T H 0 H 0TFT|H0(tH0)TH0t(S)TTH0TH0H0 nie jest prawdą.

Zatem wartości p nie można obliczyć, nawet jeśli nie ma hipotezy zerowej , a ilekroć widzimy zgłoszoną wartość p, gdzieś tam czai się hipoteza zerowa.

W tabeli przedstawionej w pytaniu czytamy

„Wszystkie testy różnic między tercytami WHR ...”

Hipoteza zerowa jest „ukryta” w tym zdaniu: jest to „Brak różnicy między tercylami WHR” (bez względu na to, jak „terfile WΗR” jest) wyrażona w formie matematycznej, która tutaj wydaje się być różnicą dwóch wielkości ustawionych na równe zero.

Alecos Papadopoulos
źródło
Zgadzam się, że za tymi analizami mogą kryć się hipotezy. Jednak ci, którzy opracowują wytyczne do artykułów naukowych (np. Oświadczenie STROBE), powinni zwrócić uwagę na obfitość wartości p. Myślę, że wartość ap powinna być zarezerwowana dla głównej hipotezy artykułu (która rzadko jest więcej niż jedna). Niemniej jednak nie mogę powiedzieć, że się z tobą nie zgadzam =)
Adam Robinsson
1
@AdamRobinsson Hmmm ... Nie jestem tego taki pewien. Takie „zastrzeżone” podejście podniosłoby (jeszcze bardziej) znaczenie, jakie test wartości p naprawdę ma dla wyciągnięcia wniosku. Dla mnie to tylko jeden wynik, który musi być połączony z wieloma innymi aspektami, wynikami, informacjami poza próbą, logiką itp. Z drugiej strony, jeśli wartości p są rozproszone w dowolnym miejscu, jest to łatwiej zrozumieć, że nie są one ostatecznym kryterium do wyciągania wniosków.
Alecos Papadopoulos
Alecos W tabeli przeczytałem coś innego, co dotyczy tercyli WHR (tj. Stosunek talii do bioder), a nie WRT, podczas gdy tertyle to wartości, które dzielą rozkład na 3 części w tym samym sensie, że kwartyle są wartościami, które dzielą się na 4 części i decyle są na dziesięć części.
Glen_b
@Glen_b Dzięki, to była tylko literówka z mojej strony. Naprawione.
Alecos Papadopoulos
2
Zobacz na przykład tutaj . Ale prawdopodobnie nie tutaj .
Glen_b
2

Zainteresowałem się i przeczytałem artykuł podany przez OP jako przykład: otyłość brzuszna zwiększa ryzyko złamania szyjki kości udowej . Nie jestem naukowcem medycznym i zwykle nie czytam artykułów medycznych.

Byłem zaskoczony, widząc, że JEDYNYM miejscem, w którym ten papier używa wartości jest podpis Tabeli 1, który OP odtworzył w treści pytania.p

Dla mnie wcale nie wygląda to na „obfitość” wartości ! Jestem przyzwyczajony do prac neurobiologicznych, w których różne grupy badanych (ludzi, myszy, muchy, neurony, próbki tkanek itp.) Są różnie traktowane lub mierzone w różnych warunkach, a prace zwykle dotyczą różnic między grupami. Różnice te są zawsze oceniane za pomocą wartości , więc artykuł może zawierać dziesiątki z nich w tekście głównym. Czasami to naprawdę wygląda jak „obfitość”. Takie podejście jest często (czasem słusznie, a czasem niesłusznie) krytykowane z różnych powodów, patrz odpowiedź @Glen_b (+1) i dalsze linki.ppp

pppp

p

Wygląda na to, że pytanie odnosi się konkretnie do takich tabel opisowych. Jeśli tak, jest to jakaś dziwna (ale w większości nieszkodliwa?) Praktyka w czasopismach medycznych, która przetrwała dzięki tradycji.


pn=43000

ameba mówi Przywróć Monikę
źródło
@amoeba Wybrałem artykuł na rando; był to najnowszy opublikowany artykuł dotyczący epidemiologii w tym czasopiśmie. Jestem pewien, że gdybym szukał czegoś więcej, mógłbym dostarczyć artykuł z wieloma bezcelowymi wartościami p. Jak zauważyłeś, istnieje zapalenie wartości p, ale z twojego i innych odpowiedzi powyżej i poniżej wydaje się, że społeczność naukowa zajmuje się tym.
Adam Robinsson
@Adam, podoba mi się twoje pytanie (+1) i odpowiedź Glen_b (+1), ale jeśli ten „losowo wybrany” artykuł jest reprezentatywny, wówczas większość punktów, które przedstawił Glen_b, i większość artykułów, do których on się odnosił, nie mają zastosowania ani nie odnoszą się do sytuacja w badaniach medycznych, o którą pytałeś. Jeśli to nie jest reprezentatywne, to oczywiście nie mogę oceniać.
ameba mówi Przywróć Monikę
Rzeczywiście kilkakrotnie otrzymałem ogromną pomoc od twoich odpowiedzi. Dokonałem oceny na podstawie mojego zrozumienia tego problemu. Uważam, że wszystkie udzielone odpowiedzi są przydatne i wspólnie odpowiadają na pytanie.
Adam Robinsson
1

Poziom statystycznej oceny nie jest tak wysoki, jak można by sądzić z mojego doświadczenia. W przypadku wszystkich prac, nad którymi pracowałem, wszystkie komentarze statystyczne pochodziły od ekspertów w dziedzinie stosowanej, a nie od statystyk. W przypadku „czołowych” czasopism, chociaż istnieje większa kontrola, często zdarza się, że wyniki zawierają poważne błędy. Myślę, że dzieje się tak częściowo dlatego, że dziedzina statystyki może być trudna (co widać na przykładzie nieporozumień między wieloma jej wielkimi umysłami).

Po drugie, czytelnicy w terenie oczekują, że zobaczą rzeczy w określony sposób. W jednym z ostatnich doświadczeń wykreśliłem prawdopodobieństwa na podstawie modelu, ale zostało to zestrzelone, ponieważ mój współpracownik poprawnie odgadł, że jego czytelnicy będą bardziej zadowoleni z wykresu słupkowego surowych danych. Podsumowując, wielu czytelników oczekuje wartości p wraz z tabelą charakterystyk podstawowych.

Nie ma to związku z twoim bezpośrednim pytaniem, ale być może jest istotne: wartości p są stosowane w prawie każdym tekście przy użyciu metod częstości lub prawdopodobieństwa. Autorzy często wnoszą ogromny wkład i głęboko zastanawiają się nad statystykami. Mimo że wykorzystywani przez eksperymentalistów, na pewno mają one miejsce w statystykach.

Julieth
źródło
dziękuję za ten komentarz. Mógłbym pójść o krok dalej; Myślę, że niewiarygodnie duża część opublikowanych wyników zawiera wady statystyczne z różnych powodów. Mój przełożony często mówi „proces recenzji opiera się na słowach dżentelmena”. Myślę, że dość zabawne.
Adam Robinsson
1

Często czytam artykuły medyczne i wydaje mi się, że wahadło wydaje się kołysać od jednej skrajności do drugiej, zamiast pozostawać w centralnej zrównoważonej strefie.

Podejście wydaje się działać dobrze. Jeśli wartość P jest niewielka, mało prawdopodobne jest, aby zaobserwowana różnica była przypadkowa. Powinniśmy zatem przyjrzeć się wielkości różnicy i zdecydować, czy ma ona jakiekolwiek znaczenie praktyczne. Bardzo małe wartości P występują w przypadku dużych próbek, nawet przy bardzo małych różnicach, co może nie mieć praktycznego znaczenia.

Nieuwzględnienie wartości P w tabeli danych wyjściowych może być niekorzystne. Więc jeśli w badaniu są dwie grupy o średnim wieku 54 i 59 lat, chcę wiedzieć, czy ta różnica może być przypadkiem sama. Jeśli P jest małe, myślę, czy ta 5-letnia różnica w 2 grupach może wpłynąć na wyniki badania. Jeśli P nie jest małe, nie muszę odpowiadać na to pytanie.

Problem występuje, jeśli ktoś opiera się wyłącznie na wartości P, a nie sprawdza wielkości różnicy (na przykład prosta zmiana procentowa). Niektórzy uważają, że wartości P należy całkowicie pominąć, aby pozostała i była widoczna tylko różnica. Zrównoważonym rozwiązaniem byłoby położenie nacisku na ocenę obu tych wartości, a nie po prostu odrzucenie wartości P, która ma ograniczone, ale „znaczące” znaczenie. Wielkość efektu prawdopodobnie również będzie ściśle skorelowana z wartością P (podobnie jak przedziały ufności) i jest również mało prawdopodobne, aby całkowicie wyparło wartości P z krajobrazu statystycznego. Jak wspomniano w poniższym artykule, istnieje wiele zalet testowania hipotezy zerowej, dzięki czemu jest popularna:

ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS I DONALD GUTHRIE Wielkości efektów i wartości p: co należy zgłaszać, a co powielać? Psychophysiology, 33 (1996). 175–183.

rnso
źródło