Tytuł komentarza w Nature Scientists przeciwko statystycznej istotności zaczyna się od:
Valentin Amrhein, Sander Greenland, Blake McShane i ponad 800 sygnatariuszy wzywają do zlikwidowania wysuwanych roszczeń i odrzucenia możliwie kluczowych efektów.
a później zawiera takie stwierdzenia jak:
Ponownie nie opowiadamy się za zakazem wartości P, przedziałów ufności ani innych miar statystycznych - tylko, że nie powinniśmy traktować ich kategorycznie. Obejmuje to dychotomizację jako statystycznie istotną lub nieistotną, a także kategoryzację opartą na innych miarach statystycznych, takich jak czynniki Bayesa.
Myślę, że mogę pojąć, że poniższy obraz nie pokazuje, że oba badania nie zgadzają się, ponieważ jedno „wyklucza” brak efektu, a drugie nie. Ale artykuł wydaje się wchodzić głębiej, niż potrafię zrozumieć.
Pod koniec wydaje się, że jest streszczenie w czterech punktach. Czy możliwe jest podsumowanie ich w jeszcze prostszy sposób dla tych z nas, którzy czytają statystyki , niż je piszą?
Mówiąc o przedziałach zgodności, pamiętaj o czterech rzeczach.
Po pierwsze, ponieważ przedział daje wartości najbardziej zgodne z danymi, biorąc pod uwagę założenia, nie oznacza to, że wartości poza nim są niezgodne; są po prostu mniej kompatybilne ...
Po drugie, nie wszystkie wartości w środku są jednakowo zgodne z danymi, biorąc pod uwagę założenia ...
Po trzecie, podobnie jak próg 0,05, z którego pochodzi, domyślny 95% używany do obliczania przedziałów jest sam w sobie arbitralną konwencją ...
I wreszcie najważniejsze: bądź pokorny: oceny zgodności zależą od poprawności założeń statystycznych użytych do obliczenia przedziału ...
Odpowiedzi:
Pierwsze trzy punkty, o ile mogę stwierdzić, są odmianą jednego argumentu.
Naukowcy często traktują pomiary niepewności ( na przykład ) jako rozkłady prawdopodobieństwa, które wyglądają następująco:12±1
Kiedy faktycznie, są one znacznie bardziej prawdopodobne, aby wyglądać jak ten :
Jako były chemik mogę potwierdzić, że wielu naukowców nieposiadających wiedzy matematycznej (przede wszystkim niefizyczni chemicy i biolodzy) tak naprawdę nie rozumie, w jaki sposób powinna działać niepewność (lub błąd, jak to nazywają). Przypominają sobie czas w fizyce licencjackiej, w którym być może musieli ich użyć, być może nawet obliczając błąd złożony na podstawie kilku różnych pomiarów, ale tak naprawdę nigdy ich nie rozumieli . I też był winny tego, a zakłada się wszystkie pomiary miał przyjść w przedziału. Dopiero niedawno (i poza środowiskiem akademickim) dowiedziałem się, że pomiary błędów zwykle odnoszą się do pewnego standardowego odchylenia, a nie do absolutnego limitu.±
Aby rozbić numerowane punkty w artykule:
Pomiary poza CI wciąż mają szansę się wydarzyć, ponieważ rzeczywiste (prawdopodobnie gaussowskie) prawdopodobieństwo jest tam niezerowe (lub gdziekolwiek w tym przypadku, chociaż stają się znikomo małe, gdy daleko się wydostaniesz). Jeśli wartości po rzeczywiście reprezentują jeden SD, to nadal istnieje 32% szansa, że punkt danych wypadnie poza nimi.±
Rozkład nie jest jednolity (z płaskim szczytem, jak na pierwszym wykresie), jest pikowany. Bardziej prawdopodobne jest uzyskanie wartości pośrodku niż na krawędziach. To jak rzucanie wiązką kości, a nie pojedynczą kością.
95% jest arbitralnym punktem odcięcia i pokrywa się prawie dokładnie z dwoma odchyleniami standardowymi.
Ten punkt jest raczej komentarzem na temat uczciwości akademickiej w ogóle. Uświadomiłem sobie, że podczas mojego doktoratu nauka nie jest jakąś abstrakcyjną siłą, jest to łączny wysiłek ludzi próbujących robić naukę. Są to ludzie, którzy próbują odkryć nowe rzeczy na temat wszechświata, ale jednocześnie starają się karmić swoje dzieci i utrzymać pracę, co niestety w dzisiejszych czasach oznacza, że gra się w jakąś formę publikacji lub śmierci . W rzeczywistości naukowcy polegają na odkryciach, które są zarówno prawdziwe, jak i interesujące , ponieważ nieciekawe wyniki nie prowadzą do publikacji.
Dowolne progi, takie jak często mogą być samonapędzające się, szczególnie wśród tych, którzy nie w pełni rozumieją statystyki i potrzebują jedynie wyniku pozytywnego / negatywnego na swoich wynikach. W związku z tym ludzie czasami żartobliwie mówią o „ponownym uruchomieniu testu, dopóki nie uzyskasz ”. To może być bardzo kuszące, szczególnie jeśli doktorat / grant / zatrudnienie opiera się na wyniku, aby te marginalne wyniki były poruszane, aż pożądane pojawi się w analizie.p<0.05 p<0.05 p=0.0498
Takie praktyki mogą być szkodliwe dla nauki jako całości, zwłaszcza jeśli są wykonywane szeroko, wszystko w pogoni za liczbą, która jest w oczach natury, bez znaczenia. Ta część w rzeczywistości zachęca naukowców do uczciwości w zakresie swoich danych i pracy, nawet jeśli ta uczciwość jest ze szkodą dla nich.
źródło
Znaczna część artykułu i liczby, którą podajesz, zawiera bardzo prosty punkt:
Na przykład,
Załóżmy, że podajemy dwóm myszom dawkę cyjanku, a jedna z nich umiera. W grupie kontrolnej dwóch myszy żadna nie umiera. Ponieważ wielkość próbki była tak mała, wynik ten nie jest statystycznie istotny ( ). Zatem ten eksperyment nie wykazuje statystycznie istotnego wpływu cyjanku na długość życia myszy. Czy powinniśmy dojść do wniosku, że cyjanek nie ma wpływu na myszy? Oczywiście, że nie.p>0.05
Ale to błąd, jak twierdzą autorzy, naukowcy rutynowo popełniają.
Na przykład na twojej figurze czerwona linia mogłaby powstać z badania na bardzo niewielu myszach, podczas gdy niebieska linia mogłaby powstać z dokładnie tego samego badania, ale na wielu myszach.
Autorzy sugerują, że zamiast używać wielkości efektu i wartości p, naukowcy zamiast tego opisują zakres możliwości, które są mniej lub bardziej zgodne z ich odkryciami. W naszym eksperymencie z dwiema myszami musielibyśmy napisać, że nasze odkrycia są zgodne z tym, że cyjanek jest bardzo trujący i że w ogóle nie jest trujący. W eksperymencie na 100 myszach możemy znaleźć przedział ufności wynoszący śmiertelności z oszacowaniem punktowym na[60%,70%] 65% . Następnie powinniśmy napisać, że nasze wyniki byłyby najbardziej zgodne z założeniem, że ta dawka zabija 65% myszy, ale nasze wyniki byłyby również w pewnym stopniu kompatybilne z odsetkami tak niskimi jak 60 lub tak wysokimi jak 70, i że nasze wyniki byłyby mniej kompatybilne z prawdą poza tym zakresem. (Powinniśmy również opisać, jakie założenia statystyczne przyjmujemy, aby obliczyć te liczby).
źródło
Spróbuję.
źródło
Wielki XKCD zrobił tę kreskówkę jakiś czas temu, ilustrując problem. Jeśli wyniki z są w uproszczeniu traktowane jako dowód na hipotezę - i są to zbyt często - wówczas 1 na 20 tak udowodnionych hipotez faktycznie będzie fałszywy. Podobnie, jeśli zostanie uznane za obalenie hipotez, wówczas 1 na 20 prawdziwych hipotez zostanie błędnie odrzucony. Wartości P nie mówią, czy hipoteza jest prawdziwa czy fałszywa, lecz mówią, czy hipoteza jest prawdopodobnie prawdziwa czy fałszywa. Wydaje się, że wspomniany artykuł odwołuje się do nazbyt powszechnej naiwnej interpretacji.P>0.05 P < 0,05P<0.05
źródło
tl; dr - Zasadniczo niemożliwe jest udowodnienie, że rzeczy nie są ze sobą powiązane; statystyki mogą być wykorzystane tylko do pokazania, kiedy rzeczy są powiązane. Pomimo tego dobrze ugruntowanego faktu ludzie często błędnie interpretują brak znaczenia statystycznego, sugerując brak związku.
Dobra metoda szyfrowania powinna generować tekst zaszyfrowany, który, o ile atakujący może stwierdzić, nie wykazuje żadnego statystycznego związku z chronioną wiadomością. Ponieważ jeśli osoba atakująca może ustalić jakiś związek, może uzyskać informacje o twoich chronionych wiadomościach, po prostu patrząc na zaszyfrowane teksty - co jest Bad Thing TM .
Jednak tekst zaszyfrowany i odpowiadający mu tekst jawny w 100% określają się nawzajem. Więc nawet jeśli najlepsi matematycy na świecie nie mogą znaleźć żadnego znaczącego związku, bez względu na to, jak bardzo się starają, nadal oczywiście wiemy, że związek nie jest tylko obecny, ale że jest on całkowicie i całkowicie deterministyczny. Ten determinizm może istnieć nawet wtedy, gdy wiemy, że nie można znaleźć związku .
Mimo to wciąż mamy ludzi, którzy będą robić takie rzeczy jak:
Wybierz związek, który chcą „ obalić ”.
Przeanalizuj go, co nie jest wystarczające do wykrycia domniemanego związku.
Zgłoś brak związku istotnego statystycznie.
Przekręć to w brak związku.
Prowadzi to do wszelkiego rodzaju „ badań naukowych ”, które media (fałszywie) zgłaszają jako obalające istnienie jakiegoś związku.
Jeśli chcesz zaprojektować własne badanie na ten temat, możesz to zrobić na kilka sposobów:
Leniwe badania:
. ‘‘'Non-significant' study(high P value)"
zdecydowanie najłatwiejszym sposobem jest po prostu bycie leniwym. To jest tak jak z tej liczby połączonej w pytaniu:
Możesz łatwo uzyskać to po prostu mając małe próbki, pozwalając na dużo hałasu i inne leniwe rzeczy. W rzeczywistości, jeśli jesteś tak leniwy, że nie chcesz zbierać żadnych danych, to jesteś już gotowe!
Leniwa analiza: z0
jakiegoś głupiego powodu niektórzy uważają, że współczynnik korelacji Pearsona wynoszący oznacza „ brak korelacji ”. Co jest prawdą w bardzo ograniczonym sensie. Ale oto kilka przypadków do zaobserwowania: . Oznacza to, że może nie istnieć relacja „ liniowa ”, ale oczywiście może być bardziej złożona. I nie musi to być kompleks „ szyfrowania ” na poziomie, ale raczej „ jest to po prostu trochę zawijasowa linia ” lub „ istnieją dwie korelacje ” lub cokolwiek innego.
Leniwa odpowiedź:
w duchu powyższego zamierzam się tutaj zatrzymać. Wiesz, bądź leniwy!
Ale poważnie, artykuł podsumowuje to dobrze w:
źródło
Dla dydaktycznego wprowadzenia do problemu Alex Reinhart napisał książkę w pełni dostępną online i zredagował w No Starch Press (więcej treści): https://www.statisticsdonewrong.com
Wyjaśnia źródło problemu bez skomplikowanych obliczeń matematycznych i zawiera szczegółowe rozdziały z przykładami z symulowanego zestawu danych:
https://www.statisticsdonewrong.com/p-value.html
https://www.statisticsdonewrong.com/regression.html
W drugim łączu przykład graficzny ilustruje problem wartości p. Wartość p jest często stosowana jako pojedynczy wskaźnik różnicy statystycznej między zestawem danych, ale sama w sobie nie jest wystarczająca.
Edytuj, aby uzyskać bardziej szczegółową odpowiedź:
W wielu przypadkach badania mają na celu odtworzenie dokładnego rodzaju danych, albo pomiarów fizycznych (np. Liczby cząstek w akceleratorze podczas konkretnego eksperymentu), albo wskaźników ilościowych (takich jak liczba pacjentów rozwijających określone objawy podczas testów narkotykowych). W obu przypadkach wiele czynników może zakłócać proces pomiaru, np. Błąd ludzki lub różnice w systemach (ludzie reagują inaczej na ten sam lek). To jest powód, dla którego eksperymenty są często przeprowadzane setki razy, jeśli to możliwe, a testy leków, najlepiej w kohortach tysięcy pacjentów.
Zbiór danych jest następnie redukowany do najprostszych wartości za pomocą statystyk: średnich, odchyleń standardowych i tak dalej. Problem z porównywaniem modeli za pomocą ich średniej polega na tym, że zmierzone wartości są jedynie wskaźnikami prawdziwych wartości, a także zmieniają się statystycznie w zależności od liczby i precyzji poszczególnych pomiarów. Mamy sposoby, aby dobrze zgadnąć, które środki prawdopodobnie będą takie same, a które nie, ale tylko z pewną pewnością. Zwykle próg mówi, że jeśli mamy mniej niż jedną z dwudziestu szans na błąd, mówiąc, że dwie wartości są różne, uważamy je za „statystycznie różne” (to znaczy ), w przeciwnym razie nie wyciągamy wniosków.P<0.05
Prowadzi to do dziwnych wniosków zilustrowanych w artykule Nature, w których dwie te same miary dają te same wartości średnie, ale wnioski badaczy różnią się ze względu na wielkość próbki. To i inne słowa ze słownictwa i nawyków statystycznych stają się coraz ważniejsze w nauce. Inną stroną problemu jest to, że ludzie zapominają, że używają narzędzi statystycznych i dochodzą do wniosku o efekt bez odpowiedniej weryfikacji mocy statystycznej swoich próbek.
Dla innej ilustracji, ostatnio nauki społeczne i przyrodnicze przechodzą prawdziwy kryzys replikacji ze względu na fakt, że wiele efektów było branych za pewnik przez osoby, które nie sprawdzały właściwej mocy statystycznej słynnych badań (podczas gdy inne fałszowały dane ale to kolejny problem).
źródło
Dla mnie najważniejsza była:
Innymi słowy: Połóż większy nacisk na omawianie szacunków (centrum i przedział ufności), a mniejszy nacisk na „testowanie hipotezy zerowej”.
Jak to działa w praktyce? Wiele badań sprowadza się do pomiaru wielkości efektów, na przykład „Zmierzyliśmy współczynnik ryzyka na poziomie 1,20, przy 95% CI w zakresie od 0,97 do 1,33”. To jest odpowiednie streszczenie badania. Możesz natychmiast zobaczyć najbardziej prawdopodobny rozmiar efektu i niepewność pomiaru. Korzystając z tego podsumowania, możesz szybko porównać to badanie z innymi podobnymi badaniami, a najlepiej połączyć wszystkie wyniki w średniej ważonej.
Niestety, takie badania często podsumowuje się jako „Nie stwierdziliśmy statystycznie istotnego wzrostu współczynnika ryzyka”. Jest to prawidłowy wniosek z powyższego badania. Nie jest to jednak odpowiednie podsumowanie badania, ponieważ nie można łatwo porównać badań przy użyciu tego rodzaju podsumowań. Nie wiesz, które badanie miało najdokładniejszy pomiar, i nie możesz zrozumieć, jakie mogą być wyniki meta-badań. I nie od razu zauważasz, kiedy badania twierdzą, że „nieznaczny wzrost współczynnika ryzyka” ma tak duże przedziały ufności, że możesz ukryć w nich słonia.
źródło
Jest to „znaczące”, które statystyków , a nie tylko naukowcy, rosną w górę i sprzeciwu wobec wykorzystania luźnym znaczeniu „i” wartości. Najnowszy numer „ The American Statistician” poświęcony jest całkowicie tej sprawie. Zobacz zwłaszcza artykuł wstępny Wassermana, Schirma i Lazara.P
źródło
Faktem jest, że z kilku powodów wartości p rzeczywiście stały się problemem.
Jednak pomimo swoich słabości mają ważne zalety, takie jak prostota i intuicyjna teoria. Dlatego chociaż ogólnie zgadzam się z komentarzem w naturze , wydaje mi się, że zamiast porzucić znaczenie statystyczne całkowicie, potrzebne jest bardziej wyważone rozwiązanie. Oto kilka opcji:
1. „Zmiana domyślnego progu wartości P dla istotności statystycznej z 0,05 na 0,005 w przypadku twierdzeń o nowych odkryciach”. Moim zdaniem Benjamin i wsp. Bardzo dobrze odnieśli się do najbardziej przekonujących argumentów przeciwko przyjęciu wyższego standardu dowodów.
2. Przyjęcie wartości p drugiej generacji . Wydaje się to być rozsądnym rozwiązaniem większości problemów wpływających na klasyczne wartości p . Jak mówią tutaj Blume i in. , Wartości p drugiej generacji mogą pomóc „poprawić dyscyplinę, odtwarzalność i przejrzystość analiz statystycznych”.
3. Przedefiniowanie wartości p jako „ilościowej miary pewności -„ wskaźnika ufności ”- że zaobserwowany związek lub twierdzenie jest prawdziwe.” Może to pomóc zmienić cel analizy - od osiągnięcia znaczenia do odpowiedniego oszacowania tego zaufania.
Co ważne, „wyniki, które nie osiągają progu istotności statystycznej lub „ pewności ” (cokolwiek to jest), mogą być nadal ważne i zasługują na publikację w wiodących czasopismach, jeśli odpowiadają na ważne pytania badawcze za pomocą rygorystycznych metod”.
Myślę, że to mogłoby pomóc złagodzić obsesję na punkcie wartości p przez wiodące czasopisma, co jest przyczyną niewłaściwego użycia wartości p .
źródło
Jedną z rzeczy, o których nie wspomniano, jest to, że błąd lub znaczenie są szacunkami statystycznymi, a nie faktycznymi pomiarami fizycznymi: zależą one w dużej mierze od dostępnych danych i sposobu ich przetwarzania. Możesz podać dokładną wartość błędu i znaczenia tylko wtedy, gdy zmierzyłeś każde możliwe zdarzenie. Zazwyczaj tak nie jest, wręcz przeciwnie!
Dlatego każde oszacowanie błędu lub znaczenia, w tym przypadku dowolnej wartości P, jest z definicji niedokładne i nie należy ufać, że opisałoby badania podstawowe - nie mówiąc już o zjawiskach! - dokładnie. W rzeczywistości nie należy ufać, że przekaże cokolwiek na temat wyników BEZ wiedzy o tym, co jest reprezentowane, jak oszacowano błąd i co zostało zrobione w celu kontroli jakości danych. Na przykład jednym ze sposobów zmniejszenia szacowanego błędu jest usunięcie wartości odstających. Jeśli to usunięcie jest również wykonywane statystycznie, to skąd możesz wiedzieć, że wartości odstające były prawdziwymi błędami zamiast nieprawdopodobnych rzeczywistych pomiarów, które powinny zostać uwzględnione w błędzie? W jaki sposób zredukowany błąd może poprawić znaczenie wyników? Co z błędnymi pomiarami w pobliżu szacunków? one poprawić błąd i może wpływać na znaczenie statystyczne, ale może prowadzić do błędnych wniosków!
W tym przypadku wykonuję modelowanie fizyczne i sam stworzyłem modele, w których błąd 3 sigma jest całkowicie niefizyczny. Oznacza to, że statystycznie jest około jednego zdarzenia na tysiąc (no cóż ... częściej niż to, ale dygresję), co skutkowałoby całkowicie absurdalną wartością. Wielkość błędu 3 przedziałów w moim polu jest w przybliżeniu równoważna z najlepszym możliwym oszacowaniem 1 cm, który okazuje się od czasu do czasu metrem. Jest to jednak rzeczywiście wynik akceptowany, gdy podaje się statystyczny przedział +/- obliczony na podstawie fizycznych, empirycznych danych w mojej dziedzinie. Jasne, przestrzegane jest zawężenie przedziału niepewności, ale często wartość najlepszego oszacowania prawdopodobieństwa jest bardziej użytecznym wynikiem, nawet gdy nominalny przedział błędu byłby większy.
Na marginesie, byłem kiedyś osobiście odpowiedzialny za jedną z tysiąca wartości odstających. Byłem w trakcie kalibracji przyrządu, gdy wydarzyło się wydarzenie, które mieliśmy zmierzyć. Niestety, ten punkt danych byłby dokładnie jedną z tych 100-krotnych wartości odstających, więc w pewnym sensie się zdarzają i są uwzględnione w błędzie modelowania!
źródło