Jestem bardzo nowy w statystyce i dopiero uczę się rozumieć podstawy, w tym wartości . Ale teraz mam w głowie ogromny znak zapytania i mam nadzieję, że moje zrozumienie jest błędne. Oto mój proces myślowy:
Czy wszystkie badania na świecie nie przypominają małp w „twierdzeniu o nieskończonej małpie”? Weź pod uwagę, że na świecie istnieje 23887 uniwersytetów. Jeśli każdy uniwersytet ma 1000 studentów, to jest to 23 miliony studentów rocznie.
Powiedzmy, że każdego roku każdy uczeń przeprowadza co najmniej jeden kawałek badań, stosując testowanie hipotez przy .
Nie oznacza to, że nawet jeśli wszystkie próbki badawcze zostaną pobrane z losowej populacji, około 5% z nich „odrzuci hipotezę zerową jako nieważną”. Łał. Pomyśl o tym. To około miliona artykułów naukowych publikowanych rocznie z powodu „znaczących” wyników.
Jeśli tak to działa, to jest przerażające. Oznacza to, że wiele „naukowej prawdy”, którą uważamy za pewnik, opiera się na czystej przypadkowości.
Prosta część kodu R wydaje się potwierdzać moje zrozumienie:
library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]
Podobnie jest w tym artykule na temat udanego łowienia : I Fooled Millions Into Thinking Chocolate pomaga na odchudzanie. Oto jak .
Czy to naprawdę wszystko? Czy tak ma działać „nauka”?
źródło
Odpowiedzi:
Jest to z pewnością uzasadniona obawa, ale to nie do końca prawda.
Jeśli wykonano 1 000 000 badań i wszystkie hipotezy zerowe są prawdziwe, około 50 000 wyników będzie miało znaczące wyniki przy p <0,05. To właśnie oznacza wartość ap. Jednak zero nie jest w gruncie rzeczy absolutnie prawdziwe. Ale nawet jeśli rozluźnimy to na „prawie prawdziwe” lub „prawie właściwe” lub niektóre inne, oznaczałoby to, że 1 000 000 badań musiałoby dotyczyć takich rzeczy, jak
i tak dalej. Nonsens.
Jednym problemem jest oczywiście to, że nie wiemy, które wartości null są prawdziwe. Innym problemem jest wspomniany w komentarzu @Glen_b - problem z szufladą plików.
Dlatego tak bardzo lubię pomysły Roberta Abelsona, które przedstawił w statystyce jako zasadny argument . Oznacza to, że dowody statystyczne powinny stanowić część zasadniczego argumentu wyjaśniającego, dlaczego coś się dzieje, i należy je oceniać na podstawie kryteriów MAGIC:
źródło
Pamiętajcie, naukowcy krytycznie NIE są jak nieskończone małpy, ponieważ ich zachowania badawcze - szczególnie eksperymenty - są przypadkowe. Eksperymenty to (przynajmniej powinny) być niezwykle dokładnie kontrolowane manipulacje i pomiary oparte na mechanistycznie poinformowanych hipotezach, które opierają się na dużej liczbie wcześniejszych badań. Nie są to tylko przypadkowe ujęcia w ciemności (lub małpkie palce na maszynach do pisania).
Szacunki dotyczące liczby opublikowanych wyników badań muszą być dalekie. Nie wiem, czy na świecie jest 23 miliony „studentów uniwersytetów” (czy to tylko uniwersytety czy college?), Ale wiem, że zdecydowana większość z nich nigdy nie publikuje żadnych odkryć naukowych. To znaczy, większość z nich nie jest kierunkami naukowymi, a nawet większość kierunków naukowych nigdy nie publikuje wyników.
Bardziej prawdopodobne oszacowanie (pewna dyskusja ) liczby publikacji naukowych rocznie wynosi około 1-2 milionów.
Należy pamiętać, że nie wszystkie opublikowane badania mają statystyki, w których znaczenie jest właściwe przy wartości p = 0,05. Często widać wartości p, takie jak p <0,01 lub nawet p <0,001. Oczywiście nie wiem, co „średnia” wartość p wynosi ponad milion papierów.
Należy również pamiętać, że naukowcy naprawdę nie powinni przyjmować niewielkiej liczby wyników przy p około 0,05 jako „prawdy naukowej”. Nawet nie blisko. Naukowcy powinni zintegrować wiele badań, z których każde ma odpowiednią moc statystyczną, wiarygodny mechanizm, odtwarzalność, wielkość efektu itp., I włączyć to do wstępnego modelu działania niektórych zjawisk.
Ale czy to oznacza, że prawie cała nauka ma rację? Nie ma mowy. Naukowcy są ludźmi i padają ofiarą uprzedzeń, złej metodologii badań (w tym niewłaściwych podejść statystycznych), oszustw, zwykłych ludzkich błędów i pecha. Prawdopodobnie bardziej dominujące w tym, dlaczego zdrowa część opublikowanej nauki jest błędna, są te czynniki, a nie konwencja p <0,05. W rzeczywistości przejdźmy do sedna sprawy i stwórzmy jeszcze bardziej „przerażające” stwierdzenie niż to, co przedstawiliście:
Dlaczego większość opublikowanych wyników badań jest fałszywa
źródło
Zobacz np. Niedawną dyskusję artykułu z 2014 r. Autorstwa Davida Colquhoun: Zamieszanie z częstością fałszywych odkryć i wielokrotnych testów (na Colquhoun 2014) . Argumentowałem za tym „co najmniej 30%” szacunkami, ale zgadzam się, że w niektórych dziedzinach badań odsetek fałszywych odkryć może być znacznie wyższy niż 5%. To jest naprawdę niepokojące.
Nie sądzę, że powiedzenie, że zerowa prawie nigdy nie jest prawdą, pomaga tutaj; Błędy typu S i typu M (wprowadzone przez Andrew Gelmana) nie są dużo lepsze niż błędy typu I / II.
Myślę, że tak naprawdę oznacza to, że nigdy nie należy ufać odosobnionemu „znaczącemu” wynikowi.
źródło
Twoja troska jest dokładnie troską, która leży u podstaw dużej części bieżącej dyskusji naukowej na temat odtwarzalności. Jednak prawdziwy stan rzeczy jest nieco bardziej skomplikowany niż sugerujesz.
Najpierw ustalmy terminologię. Testowanie znaczenia hipotezy zerowej można rozumieć jako problem z wykrywaniem sygnału - hipoteza zerowa jest albo prawdą, albo fałszem, i możesz albo ją odrzucić, albo zachować. Kombinacja dwóch decyzji i dwóch możliwych „prawdziwych” stanów rzeczy przedstawia poniższą tabelę, którą większość ludzi widzi w pewnym momencie, gdy po raz pierwszy uczy się statystyki:
Naukowcy, którzy stosują testowanie znaczenia hipotezy zerowej, próbują zmaksymalizować liczbę poprawnych decyzji (pokazanych na niebiesko) i zminimalizować liczbę niepoprawnych decyzji (pokazanych na czerwono). Pracujący naukowcy próbują również publikować swoje wyniki, aby mogli znaleźć pracę i rozwijać swoją karierę.
Stronniczość publikacji
Stopnie swobody badacza
Należy zauważyć, że niewłaściwe wykorzystanie stopnia swobody badacza (co jest czasem znane jako wątpliwa praktyka badawcza; Martinson, Anderson i de Vries, 2005 ) nie jest tym samym, co tworzenie danych. W niektórych przypadkach wykluczenie wartości odstających jest słuszne, albo z powodu awarii sprzętu, albo z innego powodu. Kluczową kwestią jest to, że w obliczu stopni swobody badaczy decyzje podejmowane podczas analizy często zależą od tego, jak dane się okażą ( Gelman i Loken, 2014), nawet jeśli badacze nie są tego świadomi. Tak długo, jak naukowcy wykorzystują stopnie swobody badaczy (świadomie lub nieświadomie) do zwiększenia prawdopodobieństwa znaczącego wyniku (być może dlatego, że znaczące wyniki są bardziej „publikowalne”), obecność naukowców o stopniach swobody spowoduje przeludnienie literatury badawczej z fałszywie pozytywnymi wynikami w w ten sam sposób co stronniczość publikacji.
Ważnym zastrzeżeniem powyższej dyskusji jest to, że prace naukowe (przynajmniej w dziedzinie psychologii, która jest moją dziedziną) rzadko składają się z pojedynczych wyników. Bardziej powszechne są liczne badania, z których każde obejmuje wiele testów - nacisk kładzie się na zbudowanie większego argumentu i wykluczenie alternatywnych wyjaśnień przedstawionych dowodów. Jednak selektywna prezentacja wyników (lub obecność stopni swobody badacza) może powodować stronniczość w zestawie wyników równie łatwo jak pojedynczy wynik. Istnieją dowody, że wyniki przedstawione w artykułach z wielu badań są często znacznie czystsze i silniejsze niż można by się spodziewać, nawet jeśli wszystkie prognozy tych badań byłyby prawdziwe ( Francis, 2013 ).
Wniosek
Zasadniczo zgadzam się z Twoją intuicją, że testowanie znaczenia hipotezy zerowej może się nie powieść. Twierdziłbym jednak, że prawdziwymi winowajcami wytwarzającymi wysoki odsetek fałszywych trafień są procesy takie jak stronniczość publikacji i obecność naukowców o stopniach swobody. Rzeczywiście, wielu naukowców zdaje sobie sprawę z tych problemów, a poprawa odtwarzalności naukowej jest bardzo aktywnym bieżącym tematem dyskusji (np. Nosek i Bar-Anan, 2012 ; Nosek, Spies i Motyl, 2012 ). Więc masz dobre towarzystwo ze swoimi obawami, ale myślę też, że istnieją również powody do pewnego ostrożnego optymizmu.
Bibliografia
Stern, JM i Simes, RJ (1997). Błąd w publikacji: dowód na opóźnioną publikację w badaniu kohortowym projektów badań klinicznych. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640
Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E.,… Williamson, PR (2008). Systematyczny przegląd dowodów empirycznych stronniczości publikacji badań i stronniczości raportowania wyników. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081
Rosenthal, R. (1979). Problem z szufladą plików i tolerancja dla pustych wyników. Biuletyn psychologiczny, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638
Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Fałszywie pozytywna psychologia: Nieujawniona elastyczność w gromadzeniu i analizie danych pozwala przedstawić wszystko jako tak znaczące. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632
Martinson, BC, Anderson, MS i de Vries, R. (2005). Naukowcy źle się zachowują. Nature, 435, 737–738. http://doi.org/10.1038/435737a
Gelman, A., i Loken, E. (2014). Kryzys statystyczny w nauce. American Scientist, 102, 460-465.
Francis, G. (2013). Replikacja, spójność statystyczna i stronniczość publikacji. Journal of Mathematical Psychology, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003
Nosek, BA i Bar-Anan, Y. (2012). Utopia naukowa: I. Otwarcie komunikacji naukowej. Zapytanie psychologiczne, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215
Nosek, BA, Spies, JR i Motyl, M. (2012). Utopia naukowa: II. Restrukturyzacja zachęt i praktyk w celu promowania prawdy ponad publikowalność Perspectives on Psychological Science, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058
źródło
Istotną weryfikacją ważnej kwestii poruszonej w tym pytaniu jest to, że „prawda naukowa” nie opiera się na indywidualnych, odizolowanych publikacjach. Jeśli wynik jest wystarczająco interesujący, skłoni innych naukowców do zbadania konsekwencji tego wyniku. Prace te będą miały tendencję do potwierdzania lub odrzucania pierwotnego ustalenia. W pojedynczym badaniu może istnieć 1/20 szansa na odrzucenie prawdziwej hipotezy zerowej, ale tylko 1/400 zrobienia tego dwa razy z rzędu.
Jeśli naukowcy po prostu powtarzają eksperymenty, dopóki nie znajdą „znaczenia”, a następnie publikują swoje wyniki, problem może być tak duży, jak sugeruje PO. Ale nie tak działa nauka, przynajmniej w moim prawie 50-letnim doświadczeniu w badaniach biomedycznych. Co więcej, publikacja rzadko opowiada o pojedynczym „znaczącym” eksperymencie, ale raczej opiera się na zestawie powiązanych ze sobą eksperymentów (z których każdy musi być sam w sobie „znaczący”), które razem wspierają szerszą, merytoryczną hipotezę.
Znacznie większy problem pochodzi od naukowców, którzy są zbyt przywiązani do własnych hipotez. Następnie mogą nadmiernie interpretować implikacje poszczególnych eksperymentów w celu wsparcia swoich hipotez, angażować się w wątpliwą edycję danych (np. Arbitralnie usuwając wartości odstające) lub (jak widziałem i pomogłem złapać) po prostu uzupełnić dane.
Nauka jest jednak procesem wysoce społecznym, niezależnie od mitologii o szalonych naukowcach ukrywających się wysoko w wieżach z kości słoniowej. Dawanie i przyjmowanie wśród tysięcy naukowców realizujących swoje interesy, w oparciu o to, czego nauczyli się z pracy innych, stanowi najwyższą instytucjonalną ochronę przed fałszywymi pozytywami. Fałszywe ustalenia mogą być czasem utrwalane przez lata, ale jeśli problem jest wystarczająco ważny, proces ostatecznie zidentyfikuje błędne wnioski.
źródło
Aby dodać do dyskusji, oto ciekawy post i późniejsza dyskusja na temat tego, jak ludzie często nie rozumieją wartości p.
W każdym razie należy zachować to, że wartość p jest tylko miarą siły dowodów w odrzuceniu danej hipotezy. Wartość p na pewno nie jest twardym progiem, poniżej którego coś jest „prawdziwe”, a powyżej którego wynika wyłącznie z przypadku. Jak wyjaśniono w poście, o którym mowa powyżej:
źródło
Jak wskazano również w innych odpowiedziach, spowoduje to problemy tylko wtedy, gdy zamierzasz selektywnie rozważyć pozytywne wyniki, w których wykluczona jest hipoteza zerowa. Właśnie dlatego naukowcy piszą artykuły przeglądowe, w których rozważają wcześniej opublikowane wyniki badań i starają się na tej podstawie lepiej zrozumieć temat. Pozostaje jednak problem, który wynika z tak zwanej „stronniczości publikacji”, tzn. Naukowcy częściej piszą artykuł o wyniku dodatnim niż o wyniku ujemnym, również artykuł o wyniku ujemnym jest bardziej prawdopodobne jest odrzucenie do publikacji niż praca z wynikiem pozytywnym.
Stanowi to duży problem, szczególnie w dziedzinach, w których testy statystyczne są bardzo ważne, dziedzina medycyny jest notorycznym przykładem. Dlatego obowiązkowe było zarejestrowanie badań klinicznych przed ich przeprowadzeniem (np. Tutaj ). Musisz więc wyjaśnić konfigurację, w jaki sposób zostanie przeprowadzona analiza statystyczna itp. Itp. Przed rozpoczęciem próby. Wiodące czasopisma medyczne odmówią publikacji artykułów, jeśli badania, które zgłosiły, nie zostały zarejestrowane.
Niestety pomimo tego działania system nie działa tak dobrze .
źródło
Jest to zbliżone do bardzo ważnego faktu dotyczącego metody naukowej: podkreśla ona falsyfikowalność. Najpopularniejsza obecnie filozofia nauki ma koncepcję Karla Poppera dotyczącą falsyfikowalności jako kamienia węgielnego.
Podstawowym procesem naukowym jest zatem:
Każdy może domagać się dowolnej teorii w dowolnym momencie. Nauka przyjmie każdą teorię, która jest „falsyfikowalna”. Najbardziej dosłowne znaczenie tego słowa polega na tym, że jeśli komuś innemu nie podoba się roszczenie, osoba ta może wydać środki na obalenie roszczenia. Jeśli nie uważasz, że skarpetki argyle leczą raka, możesz skorzystać z własnego oddziału medycznego, aby go obalić.
Ponieważ ten limit wejścia jest monumentalnie niski, tradycyjnie „nauka” jako grupa kulturowa tak naprawdę nie zawiera żadnych pomysłów, dopóki nie podejmie się „dobrego wysiłku” w celu sfałszowania własnej teorii.
Akceptacja pomysłów przebiega etapami. Możesz zamienić swoją koncepcję w artykuł w czasopiśmie za pomocą jednego badania i raczej niskiej wartości p. To, co kupuje, to reklama i pewna wiarygodność. Jeśli ktoś jest zainteresowany twoim pomysłem, na przykład jeśli twoja nauka ma zastosowania inżynieryjne, może chcieć go użyć. W tym czasie są bardziej prawdopodobne, że sfinansują dodatkową rundę fałszowania.
Proces ten idzie naprzód, zawsze z takim samym nastawieniem: wierzcie w to, co chcecie, ale aby nazwać to nauką, muszę być w stanie to później obalić.
Ten niski pasek wejściowy pozwala mu być tak innowacyjnym. Tak, istnieje wiele teoretycznie „niewłaściwych” artykułów w czasopismach. Kluczem jest jednak to, że każdy opublikowany artykuł jest teoretycznie falsyfikowalny, więc w dowolnym momencie ktoś mógłby wydać pieniądze na jego przetestowanie.
To jest klucz: czasopisma zawierają nie tylko rzeczy, które pomyślnie przeszły odpowiedni test p, ale zawierają także klucze umożliwiające innym rozmontowanie go, jeśli wyniki okażą się fałszywe.
źródło
Tak działa wiele nauk społecznych. Nie tyle w naukach fizycznych. Pomyśl o tym: wpisałeś swoje pytanie na komputerze. Ludzie byli w stanie zbudować te skomplikowane bestie zwane komputerami, wykorzystując wiedzę z zakresu fizyki, chemii i innych dziedzin fizyki. Gdyby sytuacja była tak zła, jak opisałeś, żadna elektronika nie działałaby. Albo pomyśl o takich rzeczach, jak masa elektronu, która jest znana z niesamowitą precyzją. Przechodzą przez miliardy bramek logicznych w komputerze ponad, a twój komputer nadal działa i działa przez lata.
AKTUALIZACJA: Aby odpowiedzieć na głosy, które otrzymałem, poczułem inspirację, aby podać kilka przykładów.
Pierwszy pochodzi z fizyki: Bystritsky, VM, i in. „ Pomiar astrofizycznych czynników S i przekrojów reakcji p (d, γ) 3He w obszarze ultra niskiej energii przy użyciu celu deuteridu cyrkonu ”. Fizyka cząstek i listów jądrowych 10.7 (2013): 717-722.
Mój następny przykład pochodzi z ... psychologii: Paustian-Underdahl, Samantha C., Lisa Slattery Walker i David J. Woehr. „ Płeć i postrzeganie skuteczności przywództwa: metaanaliza moderatorów kontekstowych ”. Journal of Applied Psychology, 2014, t. 99, nr 6, 1129–1145.
Teraz spójrz na niektóre tabele z dokumentów i zgadnij, z których dokumentów pochodzą:
Oto odpowiedź, dlaczego w jednym przypadku potrzebujesz „fajnych” statystyk, aw innym nie: ponieważ dane są albo kiepskie, albo nie. Gdy masz dobre dane, nie potrzebujesz wielu statystyk poza standardowymi błędami.
AKTUALIZACJA2: @ PatrickS.Forscher wypowiedział ciekawe komentarz w komentarzu:
Muszę się nie zgodzić. W ekonomii i finansach teorie wcale nie są „miękkie”. Możesz losowo wyszukać artykuł w tych polach i uzyskać coś takiego:
i tak dalej.
Pochodzi od Schervisha, Marka J., Teddy Seidenfelda i Josepha B. Kadane. „ Rozszerzenia oczekiwanej teorii użyteczności i pewne ograniczenia porównań par ”. (2003). Czy to dla ciebie wygląda miękko?
Powtarzam tutaj, że kiedy twoje teorie nie są dobre, a dane są kiepskie, możesz użyć najtrudniejszej matematyki i nadal uzyskać gówniany wynik.
W tym artykule mówią o użyteczności, koncepcji takiej jak szczęście i satysfakcja - absolutnie nie do zaobserwowania. Jak to jest pożytek z posiadania domu w porównaniu do jedzenia cheeseburgera? Prawdopodobnie jest ta funkcja, w której można podłączyć „jeść cheeseburgera” lub „żyć we własnym domu”, a funkcja wypluwa odpowiedź w niektórych jednostkach. Choć to szalone, na tym polega nowoczesna ekonomia, dzięki von Neumanowi.
źródło