Moje pytanie w tytule jest oczywiste, ale chciałbym nadać mu pewien kontekst.
ASA opublikowała na początku tego tygodnia oświadczenie „w sprawie wartości p: kontekst, proces i cel ”, nakreślając różne powszechne błędne przekonania o wartości p i zalecając ostrożność, aby nie używać jej bez kontekstu i przemyślenia (co można powiedzieć tylko o jakakolwiek metoda statystyczna).
W odpowiedzi na ASA profesor Matloff napisał post na blogu: Po 150 latach ASA mówi NIE wartościom p . Następnie profesor Benjamini (i ja) napisał post zatytułowany To nie jest wina wartości p - refleksje na temat ostatniego oświadczenia ASA . W odpowiedzi profesor Matloff zapytał w kolejnym poście :
Chciałbym zobaczyć [...] - dobry, przekonujący przykład, w którym wartości p są przydatne. To naprawdę musi być sedno.
Aby zacytować jego dwa główne argumenty przeciwko przydatności -value:
Przy dużych próbach testy istotności rzucają się na małe, nieważne odstępstwa od hipotezy zerowej.
Prawie żadne hipotezy zerowe nie są prawdziwe w prawdziwym świecie, więc wykonanie na nich testu istotności jest absurdalne i dziwaczne.
Jestem bardzo zainteresowany tym, co inni crossvalidated członkowie społeczności sądzą o tym pytaniu / argumentach i co może stanowić dobrą odpowiedź na to pytanie.
źródło
Odpowiedzi:
Rozważę oba punkty Matloffa:
Logika jest tutaj taka, że jeśli ktoś zgłasza wysoce znaczące , to na podstawie samej tej liczby nie możemy stwierdzić, czy efekt jest duży i ważny, czy nieistotny niewielki (jak to może się zdarzyć z dużym ). Uważam ten argument za dziwny i w ogóle nie mogę się z nim połączyć, ponieważ nigdy nie widziałem badań, które zgłosiłyby wartość bez zgłaszania wielkości efektu. Badania, które przeczytałem, powiedzą np. (I zwykle pokazują na rycinie), że grupa A miała taką i taką średnią, grupa B miała taką i taką średnią i były one znacząco różne z taką i taką wartością . Mogę oczywiście sam ocenić, czy różnica między A i B jest duża czy mała.n p pp = 0,0001 n p p
(W komentarzach @RobinEkman wskazał mi kilka bardzo cytowanych badań Ziliaka i McCloskeya ( 1996 , 2004 ), którzy zauważyli, że większość artykułów ekonomicznych trąci „statystycznym znaczeniem” niektórych efektów, nie zwracając uwagi na wielkość efektu i jego „praktyczne znaczenie” (które, jak twierdzą Z&MS, często może być niewielkie). Jest to wyraźnie zła praktyka. Jednak, jak wyjaśniono poniżej @ MatteoS, wielkości efektów (szacunki regresji) są zawsze zgłaszane, więc mój argument jest podtrzymany.)
Ta troska jest również często wyrażana, ale tutaj nie mogę się z nią naprawdę połączyć. Ważne jest, aby zdawać sobie sprawę, że naukowcy nie zwiększają swojegon = 20 n = 50 n = 5000n ad infinitum . W znanej mi dziedzinie neuronauki ludzie przeprowadzają eksperymenty z a może , powiedzmy, szczurami. Jeśli nie widać żadnego efektu, wówczas wniosek jest taki, że efekt nie jest wystarczająco duży, aby był interesujący. Nikt nie wiem, pójdzie na hodowli, szkolenia, nagrywania i poświęcania szczury, aby pokazać, że nie jest pewne istotne statystycznie, ale mały efekt. Oraz mając na uwadze, że może być prawdą, że prawie żadne realne efekty są dokładnie zero, to jestn = 20 n = 50 n = 5000 z pewnością prawda, że wiele wielu rzeczywistych efektów jest wystarczająco małych, aby można je było wykryć przy rozsądnych rozmiarach próby, których rozsądni badacze faktycznie używają, dokonując właściwego osądu.
(Istnieje uzasadniona obawa, że rozmiary próbek często nie są wystarczająco duże i że wiele badań jest słabych. Być może więc badacze z wielu dziedzin powinni raczej dążyć do, powiedzmy, zamiast Mimo to, bez względu na wielkość próby ogranicza limit wielkości efektu, który badanie może wykryć).n = 20n = 100 n = 20
Ponadto nie sądzę, że zgadzam się z tym, że prawie żadne hipotezy zerowe nie są prawdziwe, przynajmniej nie w eksperymentalnych badaniach randomizowanych (w przeciwieństwie do obserwacji). Dwa powody:
Bardzo często występuje kierunkowość testowanej prognozy; badacz stara się wykazać, że jakiś efekt jest dodatni . Zgodnie z konwencją zwykle wykonuje się to z dwustronnym testem przyjmującym punkt zerowy ale w rzeczywistości jest to raczej jednostronny test próbujący odrzucić . (Odpowiedź @ CliffAB, +1, zawiera pokrewny punkt.) I to z pewnością może być prawda.H 0 : δ = 0 H 0 : δ < 0δ> 0 H.0: δ= 0 H.0: δ< 0
Nawet mówiąc o punkcie „zero” zeroH.0: δ= 0 , nie rozumiem, dlaczego nigdy nie są prawdziwe. Niektóre rzeczy nie są po prostu przyczynowo związane z innymi rzeczami. Spójrz na badania psychologiczne, które nie powielały się w ostatnich latach: ludzie czują przyszłość; kobiety ubrane na czerwono podczas owulacji; wypełnianie słowami związanymi ze starością mającymi wpływ na prędkość chodzenia; itp. Może się zdarzyć, że w ogóle nie ma tu żadnych związków przyczynowych, więc prawdziwe efekty są dokładnie zerowe.
Sam Norm Matloff sugeruje stosowanie przedziałów ufności zamiast wartości ponieważ pokazują one wielkość efektu. Przedziały ufności są dobre, ale zauważają jedną wadę przedziału ufności w porównaniu do wartości : przedział ufności jest zgłaszany dla jednej określonej wartości pokrycia, np. . Widzenie przedziału ufności nie mówi mi, jak szeroki byłby przedział ufności . Ale jedną wartość można porównać z dowolnym a różni czytelnicy mogą mieć na myśli różne .p 95 % 95 % 99 % p αp p 95 % 95 % 99 % p α
Innymi słowy, myślę, że dla kogoś, kto lubi korzystać z przedziałów ufności, wartość jest przydatną i znaczącą dodatkową statystyką do zgłoszenia.p
Chciałbym podać długi cytat na temat praktycznej przydatności wartości mojego ulubionego blogera Scotta Alexandra; nie jest statystykiem (jest psychiatrą), ale ma duże doświadczenie w czytaniu literatury psychologicznej / medycznej i analizowaniu zawartych w niej statystyk. Cytat pochodzi z jego postu na blogu na temat fałszywej analizy czekolady, którą gorąco polecam. Podkreśl moje.p
Aby uzyskać dalsze omówienie różnych alternatyw dla wartości (w tym bayesowskich), zobacz moją odpowiedź w ASA omawia ograniczenia wartości - jakie są alternatywy?pp p
źródło
Wielce obrażam się na następujące dwa pomysły:
To taki słaby argument o wartościach p. Bardzo fundamentalny problem, który zmotywował rozwój statystyki, wynika z obserwowania trendu i chęci dowiedzenia się, czy to, co widzimy, jest przypadkowe, czy reprezentatywne dla systematycznego trendu.
To prawda, że nie mówi to o wielkości efektu. Ale mówi ci kierunek efektu. Nie stawiajmy więc wozu przed koniem; zanim zacznę wyciągać wnioski na temat wielkości efektu, chcę mieć pewność, że mam właściwy kierunek efektu!
Aby dodatkowo to zilustrować, załóżmy, że po prostu spojrzeliśmy na przedziały ufności i odrzucone wartości p. Jaka jest pierwsza rzecz, którą można sprawdzić w przedziale ufności? Czy efekt był ściśle pozytywny (czy negatywny) przed potraktowaniem wyników zbyt poważnie. Jako takie, nawet bez wartości p, nieformalnie przeprowadzilibyśmy testy hipotez.
Wreszcie, w odniesieniu do wniosku OP / Matloffa: „Podaj przekonujący argument, że wartości p są znacznie lepsze”, myślę, że pytanie jest nieco dziwne. Mówię to, ponieważ w zależności od twojego widoku automatycznie odpowiada sobie („daj mi konkretny przykład, w którym testowanie hipotezy jest lepsze niż jej testowanie”). Jednak szczególny przypadek, który moim zdaniem jest prawie niezaprzeczalny, dotyczy danych RNAseq. W tym przypadku zazwyczaj przyglądamy się poziomowi ekspresji RNA w dwóch różnych grupach (tj. Chorym, kontrolnym) i próbujemy znaleźć geny, które są różnicowane w dwóch grupach. W tym przypadku sam rozmiar efektu nie jest nawet tak naprawdę znaczący. Wynika to z faktu, że poziomy ekspresji różnych genów różnią się tak gwałtownie, że dla niektórych genów dwukrotna wyższa ekspresja nic nie znaczy, podczas gdy w przypadku innych ściśle regulowanych genów, 1,2-krotnie wyższa ekspresja jest śmiertelna. Tak więc rzeczywista wielkość wielkości efektu jest w rzeczywistości nieco nieciekawa przy pierwszym porównywaniu grup. Ale tynaprawdę, naprawdę chcę wiedzieć, czy ekspresja genu zmienia się między grupami i kierunkiem zmiany! Co więcej, znacznie trudniej jest rozwiązać problem wielokrotnych porównań (dla których można wykonać 20 000 z nich w jednym przebiegu) z przedziałami ufności niż z wartościami p.
źródło
Wybacz mi mój sarkazm, ale jednym oczywistym dobrym przykładem użyteczności wartości p jest opublikowanie. Miałem jednego eksperymentatora, który podszedł do mnie w celu uzyskania wartości p ... wprowadził transgen w jednej roślinie, aby poprawić wzrost. Z tej pojedynczej rośliny wyprodukował wiele klonów i wybrał największy klon, przykład, w którym wyliczono całą populację. Jego pytanie, recenzent chce zobaczyć wartość p, że ten klon jest największy. Wspomniałem, że w tym przypadku nie ma potrzeby statystyki, ponieważ miał on pod ręką całą populację, ale bezskutecznie.
Mówiąc poważniej, moim skromnym zdaniem, z akademickiego punktu widzenia uważam te dyskusje za interesujące i stymulujące, podobnie jak debaty częste kontra bayesowskie sprzed kilku lat. Ujawnia różne perspektywy najlepszych umysłów w tej dziedzinie i uwidacznia wiele założeń / pułapek związanych z metodologią, która na ogół nie jest łatwo dostępna.
W praktyce myślę, że zamiast spierać się o najlepsze podejście i zastępować jedną wadliwą miarę inną, jak zasugerowano wcześniej, dla mnie jest to raczej objawienie podstawowego problemu systemowego i należy skupić się na znalezieniu optymalnego rozwiązania. Na przykład można przedstawić sytuacje, w których wartości p i CI uzupełniają się nawzajem oraz okoliczności, w których jedna jest bardziej niezawodna od drugiej. W ogólnym schemacie rzeczy rozumiem, że wszystkie narzędzia wnioskowania mają swoje wady, które należy zrozumieć w każdej aplikacji, aby nie utrudniać postępu w kierunku ostatecznego celu ... głębszego zrozumienia systemu badań.
źródło
Podam przykładowy przypadek wykorzystania i raportowania wartości p. To bardzo niedawny raport z poszukiwań tajemniczej cząstki na Wielkim Zderzaczu Hadronów (LHC) w CERN .
Kilka miesięcy temu w kręgach fizyki wysokich energii było dużo podekscytowanych rozmów o możliwości wykrycia dużej cząsteczki na LHC. Pamiętaj, że było to po odkryciu bozonu Higgsa . Oto fragment artykułu „Szukaj rezonansów rozpadających się na pary fotonów w 3,2 fb-1 zderzeń pp przy √s = 13 TeV z detektorem ATLAS” autorstwa The ATLAS Collaboration 15 grudnia 2015 r. I moje komentarze są następujące:
Mówią tutaj, że liczba zdarzeń przekracza to, co przewiduje Model Standardowy . Poniższy rysunek z artykułu pokazuje wartości p zdarzeń nadmiarowych w funkcji masy cząstki. Widzisz, jak wartość p nurkuje około 750 GeV. Mówią więc, że istnieje możliwość wykrycia nowej cząstki o masie równej 750 Giga eV . Wartości p na rysunku są obliczane jako „lokalne”. Globalne wartości p są znacznie wyższe. Nie jest to jednak ważne w naszej rozmowie.
Ważne jest to, że wartości p nie są jeszcze „wystarczająco niskie”, aby fizycy mogli stwierdzić znalezisko, ale „wystarczająco niskie”, aby się podekscytować. Planują więc nadal liczyć i mają nadzieję, że te wartości p jeszcze bardziej spadną.
Powiększ kilka miesięcy do sierpnia 2016 r. W Chicago, konferencji na temat HEP . Pojawił się nowy raport „Poszukiwanie produkcji rezonansowej par fotonów o wysokiej masie przy użyciu 12,9 fb-1 zderzeń proton-proton przy =s = 13 TeV oraz połączonej interpretacji poszukiwań przy 8 i 13 TeV” przez CMS Collaboration . Oto fragmenty moich komentarzy:
Tak więc chłopaki nadal zbierali wydarzenia, a teraz zniknął nadmiar wydarzeń przy 750 GeV. Poniższy rysunek z artykułu pokazuje wartości p i można zobaczyć, jak wartość p wzrosła w porównaniu z pierwszym raportem. Dlatego niestety wyciągają wniosek, że żadna cząstka nie jest wykrywana przy 750 GeV.
Myślę, że w ten sposób powinny być stosowane wartości p. Całkowicie mają sens i wyraźnie działają. Myślę, że powodem jest to, że częste podejścia są z natury naturalne w fizyce. W rozpraszaniu cząstek nie ma nic subiektywnego. Zbierasz wystarczająco dużą próbkę i otrzymujesz wyraźny sygnał, jeśli ona tam jest.
Jeśli naprawdę zastanawiasz się, jak dokładnie obliczane są tutaj wartości p, przeczytaj ten artykuł : „Wzory asymptotyczne dla testów nowej fizyki opartych na prawdopodobieństwie” Cowan i in.
źródło
Pozostałe wyjaśnienia są w porządku, chciałem tylko udzielić krótkiej i bezpośredniej odpowiedzi na pytanie, które pojawiło się w mojej głowie.
Sprawdzanie nierównowagi współzmiennej w eksperymentach losowych
Twoje drugie twierdzenie (dotyczące nierealistycznych hipotez zerowych) nie jest prawdziwe, gdy sprawdzamy równowagę zmienną towarzyszącą w randomizowanych eksperymentach, w których wiemy, że randomizacja została wykonana prawidłowo. W tym przypadku wiemy, że hipoteza zerowa jest prawdziwa. Jeśli otrzymamy znaczącą różnicę między grupą leczenia a grupą kontrolną na pewnej zmiennej towarzyszącej - oczywiście po kontroli wielu porównań - oznacza to, że dostaliśmy „zły los” w randomizacji i być może nie powinniśmy ufać oszacowaniu przyczynowemu jako wiele. Jest tak, ponieważ możemy sądzić, że nasze szacunkowe efekty leczenia z tej konkretnej randomizacji „złego losowania” są bardziej oddalone od prawdziwych efektów leczenia niż szacunki uzyskane z „dobrego losowania”.
Myślę, że jest to idealne wykorzystanie wartości p. Wykorzystuje definicję wartości p: prawdopodobieństwo otrzymania wartości jako lub bardziej ekstremalnej, biorąc pod uwagę hipotezę zerową. Jeśli wynik jest bardzo mało prawdopodobny, to w rzeczywistości otrzymaliśmy „zły remis”.
Tabele bilansowe / statystyki są również powszechne, gdy wykorzystuje się dane obserwacyjne do próby wnioskowania przyczynowego (np. Dopasowanie, eksperymenty naturalne). Chociaż w tych przypadkach tabele bilansów są dalekie od wystarczających, aby uzasadnić etykietę „przyczynową” szacunków.
źródło
Kontrola poziomów błędów jest podobna do kontroli jakości w produkcji. Robot na linii produkcyjnej ma zasadę decydującą o tym, że część jest wadliwa, co gwarantuje, że nie przekroczy określonej liczby wadliwych części, które przechodzą niezauważone. Podobnie, agencja, która podejmuje decyzje o zatwierdzeniu leku na podstawie „uczciwych” wartości P, ma sposób na utrzymanie wskaźnika fałszywych odrzuceń na kontrolowanym poziomie, z definicji poprzez częstą długoterminową konstrukcję testów. „Uczciwość” oznacza tutaj brak niekontrolowanych uprzedzeń, ukrytych wyborów itp.
Jednak ani robot, ani agencja nie mają osobistego udziału w żadnym konkretnym leku lub części przechodzącej przez przenośnik montażowy. Z kolei w nauce my, jako indywidualni badacze, najbardziej zależy nam na konkretnej hipotezie, którą badamy, a nie na odsetku fałszywych twierdzeń w naszym ulubionym czasopiśmie, któremu się poddajemy. Ani wartość P, ani granice przedziału ufności (CI) nie odnoszą się bezpośrednio do naszego pytania dotyczącego wiarygodności tego, co zgłaszamy. Kiedy konstruujemy granice CI, powinniśmy powiedzieć, że jedynym znaczeniem tych dwóch liczb jest to, że jeśli inni naukowcy wykonają ten sam rodzaj obliczeń CI w swoich badaniach, 95% lub cokolwiek innego zostanie zachowane w różnych badaniach jako całości .
W tym świetle uważam za ironię, że wartości P są „zakazane” przez czasopisma, biorąc pod uwagę, że w obliczu kryzysu związanego z odtwarzalnością mają one większą wartość dla redaktorów czasopism niż dla badaczy przesyłających swoje prace, jako praktyczny sposób na zachowanie odsetek fałszywych ustaleń zgłoszonych przez czasopismo w zatoce na dłuższą metę. Wartości P są dobre w filtrowaniu lub, jak napisał IJ Good, są dobre do ochrony tylnego końca statystyki, ale nie tyle tylnego końca klienta.
PS Jestem wielkim fanem pomysłu Benjaminiego i Hochberga na przyjęcie bezwarunkowych oczekiwań na podstawie badań z wieloma testami. W ramach globalnego „zerowego” „częsty” FDR jest nadal kontrolowany - badania z jednym lub kilkoma odrzuceniami pojawiają się w czasopiśmie w kontrolowanym tempie, chociaż w tym przypadku każde badanie, w którym rzeczywiście odrzucono, ma proporcję fałszywych odrzuceń równych jeden.
źródło
Zgadzam się z Mattem, że wartości p są przydatne, gdy hipoteza zerowa jest prawdziwa.
Najprostszym przykładem, jaki mogę wymyślić, jest testowanie generatora liczb losowych. Jeśli generator działa poprawnie, można użyć dowolnej wielkości realizacji i podczas testowania dopasowania wielu próbek wartości p powinny mieć jednolity rozkład. Jeśli tak, jest to dobry dowód na prawidłowe wdrożenie. Jeśli nie, wiesz, że gdzieś popełniłeś błąd.
Inne podobne sytuacje mają miejsce, gdy wiadomo, że zmienna statystyczna lub losowa powinna mieć określony rozkład (ponownie, najbardziej oczywistym kontekstem jest symulacja). Jeśli wartości p są jednolite, znaleziono wsparcie dla prawidłowej implementacji. Jeśli nie, wiesz, że masz problem z kodem.
źródło
Mogę wymyślić przykład, w którym wartości p są przydatne, w eksperymentalnej fizyce wysokich energii. Patrz ryc. 1 Wykres ten pochodzi z tego artykułu: Obserwacja nowej cząstki w poszukiwaniu bozonu Higgsa modelu standardowego za pomocą detektora ATLAS w LHC
źródło