Edycja: Podstawa mojego pytania jest wadliwa i muszę poświęcić trochę czasu na zastanowienie się, czy to w ogóle ma sens.
Edycja 2: Wyjaśnienie, że uznaję, że wartość p nie jest bezpośrednią miarą prawdopodobieństwa hipotezy zerowej, ale zakładam, że im wartość p jest bliższa 1, tym bardziej prawdopodobne jest, że hipoteza ma została wybrana do testów eksperymentalnych, których odpowiednia hipoteza zerowa jest prawdziwa, podczas gdy im wartość p jest bliższa 0, tym bardziej prawdopodobne jest, że wybrano hipotezę do testów eksperymentalnych, których odpowiadająca hipoteza zerowa jest fałszywa. Nie widzę, jak to jest fałszywe, chyba że zestaw wszystkich hipotez (lub wszystkich hipotez wybranych do eksperymentów) jest w jakiś sposób patologiczny.
Edycja 3: Myślę, że wciąż nie używam jasnej terminologii, aby zadać moje pytanie. Gdy numery loterii są odczytywane, a ty dopasowujesz je do kuponu jeden po drugim, coś się zmienia. Prawdopodobieństwo wygranej nie zmienia się, ale zmienia się prawdopodobieństwo, że możesz wyłączyć radio. Podobna zmiana ma miejsce po zakończeniu eksperymentów, ale mam wrażenie, że terminologia, której używam - „wartości p zmieniają prawdopodobieństwo, że wybrano prawdziwą hipotezę” - nie jest poprawną terminologią.
Edycja 4: Otrzymałem dwie niezwykle szczegółowe i pouczające odpowiedzi, które zawierają wiele informacji, dzięki którym mogę przepracować. Głosuję teraz oboje, a potem wrócę, by je zaakceptować, gdy nauczyłem się na podstawie obu odpowiedzi wystarczająco dużo, aby wiedzieć, że odpowiedzieli lub unieważnili moje pytanie. To pytanie otworzyło znacznie większą puszkę robaków niż ta, którą spodziewałem się zjeść.
W artykułach, które przeczytałem, widziałem wyniki z p> 0,05 po walidacji zwane „fałszywie dodatnimi”. Jednak czy nie jest bardziej prawdopodobne, że wybrałem hipotezę do przetestowania z fałszywą odpowiadającą hipotezą zerową, gdy dane eksperymentalne mają ap <0,50, co jest niskie, ale> 0,05, i nie są zarówno hipotezą zerową, jak i hipoteza badawcza statystycznie niepewne / nieznaczny (biorąc pod uwagę istotność statystyczną konwencjonalny odcięcia) gdziekolwiek między 0,05 <p < 0,95 , co stanowi odwrotność p <0,05 jest, biorąc pod uwagę asymetrię wskazał w @ NickStauner w linku ?
Nazwijmy tę liczbę A i zdefiniujmy ją jako wartość p, która mówi to samo o prawdopodobieństwie, że wybrałeś prawdziwą hipotezę zerową w swoim eksperymencie / analizie, a wartość p 0,05 mówi o prawdopodobieństwie, że „ wybraliśmy prawdziwą hipotezę inną niż zero dla twojego eksperymentu / analizy. Nie ma 0,05 <p <Po prostu powiedz: „Twoja próbka nie była wystarczająco duża, aby odpowiedzieć na pytanie, i nie będziesz w stanie ocenić znaczenia aplikacji / świata rzeczywistego, dopóki nie uzyskasz większej próbki i nie uzyskasz statystyk znaczenie uporządkowane "?
Innymi słowy, czy nie powinno być prawidłowe nazywanie wyniku zdecydowanie fałszywym (a nie po prostu nieobsługiwanym) wtedy i tylko wtedy, gdy p> A?
Wydaje mi się to proste, ale takie powszechne użycie mówi mi, że mogę się mylić. Jestem:
a) błędnie interpretuje matematykę,
b) narzeka na nieszkodliwą, jeśli nie dokładnie poprawną konwencję,
c) całkowicie poprawną, lub
d) inną?
Rozumiem, że to brzmi jak wezwanie do wyrażenia opinii, ale wydaje się, że jest to pytanie z jednoznaczną matematycznie poprawną odpowiedzią (po ustaleniu granicy istotności), że ja lub (prawie) wszyscy inni się mylą.
źródło
Odpowiedzi:
Twoje pytanie opiera się na fałszywej przesłance:
Wartość p nie jest prawdopodobieństwem, że hipoteza zerowa jest prawdziwa. Na przykład, jeśli weźmiesz tysiąc przypadków, w których hipoteza zerowa jest prawdziwa, połowa z nich będzie miała
p < .5
. Ci, połowa będzie wszystko być null.W rzeczywistości pomysł, który
p > .95
oznacza, że hipoteza zerowa jest „prawdopodobnie prawdziwa”, jest również myląca. Jeśli hipoteza zerowa jest prawdziwa, prawdopodobieństwop > .95
jest dokładnie takie samo jak prawdopodobieństwo, żep < .05
.ETA: Twoja edycja wyjaśnia, na czym polega problem: nadal masz problem powyżej (że traktujesz wartość p jako prawdopodobieństwo późniejsze, gdy tak nie jest). Ważne jest, aby zauważyć, że nie jest to subtelne filozoficzne rozróżnienie (jak myślę sugerujesz w dyskusji na temat losów na loterię): ma to ogromne praktyczne implikacje dla każdej interpretacji wartości p.
Ale tam jest przekształcenie można wykonać na wartości p, który będzie Ci do tego, co szukasz, i to się nazywa lokalny fałszywych odkrycie. (Jak opisano w tym ładnym artykule , jest to częsty odpowiednik „prawdopodobieństwa błędu bocznego”, więc pomyśl o tym w ten sposób, jeśli chcesz).
Pracujmy z konkretnym przykładem. Załóżmy, że przeprowadzasz test t, aby ustalić, czy próbka 10 liczb (z rozkładu normalnego) ma średnią 0 (test t, jednostronny, dwustronny). Najpierw zobaczmy, jak wygląda rozkład wartości p, gdy średnia faktycznie wynosi zero, z krótką symulacją R:
Jak widzimy, zerowe wartości p mają równomierny rozkład (równie prawdopodobne we wszystkich punktach od 0 do 1). Jest to niezbędny warunek wartości p: w rzeczywistości to właśnie oznaczają wartości p! (Biorąc pod uwagę, że wartość null jest prawdą, istnieje 5% szansy, że jest mniejsza niż .05, 10% szansy, że jest mniejsza niż .1 ...)
Rozważmy teraz alternatywną hipotezę - przypadki, w których wartość zerowa jest fałszywa. Teraz jest to trochę bardziej skomplikowane: kiedy wartość null jest fałszywa, „jak fałszywa”? Średnia próbki nie wynosi 0, ale czy to .5? 1? 10? Czy to losowo się zmienia, czasem małe, a czasem duże? Dla uproszczenia, powiedzmy, że zawsze jest równe .5 (ale pamiętaj o tej komplikacji, będzie to ważne później):
Zauważ, że rozkład nie jest teraz jednolity: jest przesunięty w kierunku 0! W swoim komentarzu wspominasz o „asymetrii”, która dostarcza informacji: to ta asymetria.
Wyobraź sobie, że znasz obie te dystrybucje, ale pracujesz z nowym eksperymentem, a także masz przedtem, że istnieje 50% szansa, że jest zerowa, a 50%, że jest to alternatywa. Otrzymujesz wartość p wynoszącą 0,7. Jak możesz dostać się od tego i wartości p do prawdopodobieństwa?
Co powinieneś zrobić, to porównać gęstości :
I spójrz na swoją wartość p:
Ten stosunek między gęstością zerową a gęstością alternatywną można wykorzystać do obliczenia lokalnego wskaźnika fałszywego wykrywania : im wyższa wartość zerowa w stosunku do alternatywy, tym wyższy lokalny FDR. Takie jest prawdopodobieństwo, że hipoteza jest zerowa (technicznie ma ona ściślejszą interpretację częstokroć, ale tutaj będzie prosta). Jeśli że wartość jest bardzo wysoka, wówczas można dokonać interpretacji „hipoteza zerowa jest prawie na pewno prawdziwe.” Rzeczywiście, możesz zrobić próg .05 i .95 lokalnego FDR: to miałoby właściwości, których szukasz. (A ponieważ lokalny FDR rośnie monotonicznie z wartością p, przynajmniej jeśli robisz to dobrze, przełożą się one na niektóre progi A i B, w których możesz powiedzieć „
Teraz już słyszę, jak pytasz „dlaczego więc nie użyjemy tego zamiast wartości p?” Dwa powody:
Nie potrzebujesz żadnego z nich do testu wartości p, a test wartości p nadal pozwala uniknąć fałszywych trafień (co jest jego głównym celem). Teraz, to jest możliwe oszacowanie zarówno tych wartości w wielu testów hipotezy, gdy masz tysiące p-wartości (takich jak jednego testu dla każdej z tysięcy genów: patrz ten papier lub ten papier na przykład), ale nie wtedy, gdy wykonuję pojedynczy test.
Na koniec możesz powiedzieć: „Czy papier nadal nie jest w błędzie, jeśli powiedziano, że replikacja, która prowadzi do wartości p powyżej 0,05, jest koniecznie fałszywie dodatnia?” Cóż, chociaż prawdą jest, że uzyskanie jednej wartości p 0,04 i kolejnej wartości p 0,06 tak naprawdę nie oznacza, że oryginalny wynik był nieprawidłowy, w praktyce jest to rozsądna miara do wyboru. Ale w każdym razie możesz być zadowolony, że inni mają co do tego wątpliwości! Artykuł, do którego się odwołujesz, jest nieco kontrowersyjny w statystykach: ten artykuł używa innej metody i dochodzi do zupełnie innych wniosków na temat wartości p z badań medycznych, a następnie to badanie zostało skrytykowane przez niektórych wybitnych Bayesianów (i to w kółko ...). Tak więc, chociaż twoje pytanie opiera się na błędnych założeniach dotyczących wartości p, myślę, że analizuje interesujące założenie ze strony cytowanego dokumentu.
źródło
Umieść kursor myszy nad dowolnym etykietka (← to fałszywy tag) pojawiający się poniżej, aby zobaczyć krótki fragment jego wiki. Proszę wybaczyć zakłócenie odstępów między wierszami. Uważam, że warto, ponieważ fragmenty znaczników mogą pomóc czytelnikom sprawdzić zrozumienie żargonu podczas czytania. Niektóre z tych fragmentów również zasługują na edycję, więc zasługują również na publicystę, IMHO.
@DavidRobinson ma rację, obserwując top nie jest prawdopodobieństwem fałszu wartości null częstyNHST. Jest to (przynajmniej) jedno z nieporozumień Goodmana (2008) „Dirty Dozen”p wartości (patrz także Hurlbert i Lombardi, 2009 ) . W NHSTp jest prawdopodobieństwo że losuje się przyszłe losowe próbki w ten sam sposób, który wykazywałby związek lub różnicę (lub cokolwiek innego wielkość efektu jest testowany pod kątem wartości zerowej, jeśli istnieją inne odmiany wielkości efektu ...?) co najmniej tak różnej od hipotezy zerowej, jak próbka (próbki) z tej samej populacji (populacji), które badano, aby dojść do danej p wartość, jeśli wartość null jest prawdziwa. To jest,p jest prawdopodobieństwem otrzymania próbki takiej jak Twoja, biorąc pod uwagę zero ; nie odzwierciedla prawdopodobieństwa zera - przynajmniej nie bezpośrednio. I odwrotnie, metody bayesowskie szczycą się formułowaniem analiz statystycznych, które koncentrują się na szacowaniu dowodów za lub przeciwwcześniejszyteoria efektu, biorąc pod uwagę dane , które argumentują, jest bardziej intuicyjnie atrakcyjnym podejściem ( Wagenmakers, 2007 ) , oprócz innych zalet, i pomija wady dyskusyjne. (Aby być uczciwym, patrz „ Jakie są wady analizy bayesowskiej? ”. Skomentowałeś również cytowanie artykułów, które mogą tam dać kilka fajnych odpowiedzi: Moyé, 2008; Hurlbert i Lombardi, 2009 ).
Prawdopodobnie dosłownie sformułowana hipoteza zerowa jest często bardziej niż błędna, ponieważ najczęściej hipotezami zerowymi są dosłownie hipotezy o zerowym skutku. (Aby znaleźć kilka przydatnych przeciwnych przykładów, zobacz odpowiedzi na: „ Czy duże zestawy danych są nieodpowiednie do testowania hipotez? ”). Problemy filozoficzne, takie jak efekt motyla, zagrażają dosłownościważnośćjakiejkolwiek takiej hipotezy; stąd wartość zerowa jest najogólniej użyteczna jako podstawa do porównania alternatywnej hipotezy o pewnym niezerowym efekcie. Taka alternatywna hipoteza może pozostać bardziej prawdopodobna niż zerowa po zebraniu danych, co byłoby nieprawdopodobne, gdyby zerowa była prawdziwa . Dlatego naukowcy zazwyczaj wnioskują o poparciu dla alternatywnej hipotezy na podstawie dowodów przeciwko zeru, ale to nie towartości pkwantyfikować bezpośrednio ( Wagenmakers, 2007 ) .
Jak podejrzewasz znaczenie statystyczne jest funkcją wielkość próbki, a także wielkość i spójność efektu. (Patrz @ gung na odpowiedź na niedawne pytanie: „ W jaki sposób test t być istotne statystycznie, jeżeli średnia różnica jest prawie 0? ”), Pytania często zamierzają poprosić o nasze dane są „Jaki jest wpływp wartość odpowiada tylko na to ostatnie pytanie bezpośrednio, ale kilku specjalistów (@rpierce prawdopodobnie dałoby ci lepszą listę niż ja; wybacz mi, że wciągnąłem cię w to!) argumentowało, że badacze źle odczytali p jako odpowiedź na poprzednie pytanie o wielkość efektu zbyt często; Obawiam się, że muszę się zgodzić.
x
nay
? „ Z różnych powodów (w tym IMO, źle zrozumianych i w inny sposób wadliwych programów edukacyjnych w statystyce, zwłaszcza takich, jak nauczają nie-statystycy), często zamiast tego dosłownie zadajemy dosłownie luźno powiązane pytanie: „Jakie jest prawdopodobieństwo losowego próbkowania danych takich jak moje z populacji, na którąx
to nie wpływay
? ” Jest to zasadnicza różnica między odpowiednio oszacowaniem wielkości efektu a testowaniem istotności. ZAAby odpowiedzieć bardziej bezpośrednio na znaczenie.05 < p < .95 , jest to prawdopodobieństwo losowego próbkowania danych z populacji, dla której null jest prawdziwy, ale która wykazuje związek lub różnicę, która różni się od tej, którą null opisuje dosłownie przynajmniej o tak szerokim i spójnym marginesie, jak twoje dane. .. <wdech> ... wynosi między 5–95%. Z pewnością można argumentować, że jest to konsekwencja wielkości próby, ponieważ zwiększenie wielkości próby poprawia zdolność wykrywania małych i niespójnych rozmiarów efektów i odróżnia je od zerowej, powiedzmy, efektu zerowego z pewnością przekraczającą 5%. Jednak małe i niespójne rozmiary efektów mogą, ale nie muszą być znaczące pragmatycznie (≠ znaczący statystycznie - kolejny brudny tuzin Goodmana (2008); zależy to znacznie bardziej od znaczenia danych, z którymi istotność statystyczna dotyczy tylko w ograniczonym zakresie. Zobacz moją odpowiedź na powyższe .
Ponieważ dane powinny zazwyczaj stanowić obserwacje oparte na faktach empirycznych, nie powinny być fałszywe; tylko wnioski na ich temat powinny idealnie zmierzyć się z tym ryzykiem. (Oczywiście pojawia się również błąd pomiaru, ale ten problem jest nieco poza zakresem tej odpowiedzi, więc pomijając to tutaj, zostawię go w spokoju.) Zawsze istnieje ryzyko, że fałszywe pozytywne wnioskowanie o tym, że wartość null jest mniej przydatne niż hipoteza alternatywna, przynajmniej jeśli wnioskodawca nie wie, że zero jest prawdziwe. Tylko w dość trudnych do wyobrażenia okolicznościach wiedzy, że wartość zerowa jest dosłownie prawdziwa, można wnioskować na korzyść alternatywnej hipotezy zdecydowanie fałszywe ... przynajmniej, o ile w tej chwili mogę to sobie wyobrazić.
Oczywiście powszechne stosowanie lub konwencja nie jest najlepszym autorytetem w zakresie ważności epistemicznej lub wnioskowania. Nawet opublikowane zasoby są omylne; patrz na przykład Błąd w definicji wartości p . W twojej literaturze ( Hurlbert i Lombardi, 2009 ) znajdziesz także kilka interesujących objaśnień tej zasady (strona 322):
Kolejny przykład: to zdanie w najnowszym artykule Nature News ( Nuzzo, 2014 ) : „Wartość P, wspólny wskaźnik siły dowodów ...” Patrz Wagenmakers ” (2007, strona 787) „Problem 3:p Wartości nie określają ilościowo danych statystycznych ”... Jednak @MichaelLew ( Lew, 2013 ) nie zgadza się w sposób, który może okazać się przydatny: używap wartości do indeksowania funkcji prawdopodobieństwa. Jednak o ile te opublikowane źródła są ze sobą sprzeczne, przynajmniej jedno musi się mylić! (Myślę, że na pewnym poziomie ...) Oczywiście nie jest to tak złe, jak „niewiarygodne” jako takie. Mam nadzieję, że uda mi się nakłonić Michaela do bycia w tym miejscu, oznaczając go tak, jak ja (ale nie jestem pewien, czy tagi użytkownika wysyłają powiadomienia, gdy są edytowane w - nie sądzę, że twoje w OP) tak zrobiły. Może być jedynym, który może uratować Nuzzo - nawet samą Naturę ! Pomóż nam Obi-Wan! (I wybacz mi, jeśli moja odpowiedź tutaj pokazuje, że wciąż nie rozumiem implikacji twojej pracy, co jestem pewien, że w każdym razie mam ...) BTW, Nuzzo oferuje również intrygującą samoobronę i odrzucenie „Problem 3” Wagenmaakers: patrz „Prawdopodobna przyczyna” Nuzzo( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner i Greenberg, 2007 ) . Mogą po prostu zawierać odpowiedź, której naprawdę szukasz, ale wątpię, czy mógłbym powiedzieć.
Re: pytanie wielokrotnego wyboru, wybieram
d
. Być może błędnie zinterpretowałeś tutaj niektóre pojęcia, ale z pewnością nie jesteś sam, jeśli tak, i osądzę cię, ponieważ tylko ty wiesz, w co naprawdę wierzysz. Błędna interpretacja implikuje pewną pewność, podczas gdy zadawanie pytań implikuje coś wręcz przeciwnego, a ten impuls do zadawania pytań, gdy niepewność jest dość godna pochwały i daleka od wszechobecności, niestety. Ta kwestia natury ludzkiej sprawia, że błędność naszych konwencji jest niestety nieszkodliwa i zasługuje na takie skargi, jak te, o których tu mowa. (Częściowo dziękuję!) Jednak twoja propozycja również nie jest do końca poprawna.Ciekawe omówienie problemów związanych zp wartości, w których uczestniczyłem, pojawiają się w tym pytaniu: Uwzględnianie utrwalonych poglądów na wartości p . W mojej odpowiedzi wymieniono kilka odniesień, które mogą okazać się przydatne w dalszej analizie problemów interpretacyjnych i alternatywp wartości. Ostrzegam: wciąż nie trafiłem na dno tej konkretnej króliczej nory , ale mogę przynajmniej powiedzieć, że jest bardzo głęboka . Wciąż się o tym uczę (w przeciwnym razie podejrzewam, że pisałbym z bardziej bayesowskiej perspektywy [edytuj]: a może z perspektywy NFSA ! Hurlbert i Lombardi, 2009 ) , w najlepszym razie jestem słabym autorytetem i witam z zadowoleniem wszelkie poprawki lub opracowania, które inni mogą zaoferować do tego, co tu powiedziałem. Podsumowując, mogę jedynie stwierdzić, że prawdopodobnie istnieje matematycznie poprawna odpowiedź i może się zdarzyć, że większość ludzi pomyli się. Prawidłowa odpowiedź z pewnością nie przychodzi łatwo, ponieważ następujące odniesienia pokazują ...
PS Zgodnie z prośbą (w pewnym sensie ... Przyznaję, że tak naprawdę zajmuję się tym, zamiast pracować w nim), to pytanie jest lepszym odniesieniem do czasami jednolitego rozkładup biorąc pod uwagę zero: „ Dlaczego wartości p są równomiernie rozłożone w ramach hipotezy zerowej? ” Szczególnie interesujące są komentarze @ Whubera, które podnoszą klasę wyjątków. Jak to w pewnym stopniu dotyczy całej dyskusji, nie podążam za argumentami w 100%, nie mówiąc już o ich implikacjach, więc nie jestem pewien, czy te problemy zp jednolitość dystrybucji jest w rzeczywistości wyjątkowa. Dalsza przyczyna głęboko zakorzenionego zamieszania statystycznego, obawiam się ...
Bibliografia
- Goodman, SN (1992). Komentarz na temat replikacji, wartości P i dowodów. Statystyka w medycynie, 11 (7), 875–879.
- Goodman, SN (2001). Z P -values i Bayesa: Skromna propozycja. Epidemiology, 12 (3), 295–297. Źródło: http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Brudny tuzin: dwanaście błędnych wyobrażeń o wartości P. Seminaria z hematologii, 45 (3), 135–140. Źródło: http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., i Greenberg, DA (2007). Brak replikacji badań asocjacyjnych: „pseudo-awarie” do replikacji? Genetics in Medicine, 9 (6), 325–331. Źródło: http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH i Lombardi, CM (2009). Ostateczne załamanie się ram teoretycznych decyzji Neymana-Pearsona i powstanie neoFisherii. Annales Zoologici Fennici, 46 (5), 311–349. Źródło: http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Do P lub nie do P: O dowodowym charakterze wartości P i ich miejscu w wnioskach naukowych. arXiv: 1311.0081 [stat.ME]. Źródło:http://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayesianie w badaniach klinicznych: Zasnąłem przy zmianie. Statystyka w medycynie, 27 (4), 469–482.
- Nuzzo, R. (2014, 12 lutego). Metoda naukowa: błędy statystyczne. Nature News, 506 (7487). Źródło: http://www.nature.com/news/scientific-method-statistic-errors-1.14700 .
- Wagenmakers, EJ (2007). Praktyczne rozwiązanie wszechobecnych problemów wartości p . Biuletyn i przegląd psychonomiczny, 14 (5), 779–804. Źródło: http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .
źródło