Czy tak naprawdę działają wartości p? Czy milion artykułów naukowych rocznie może być oparty na czystej przypadkowości?

98

Jestem bardzo nowy w statystyce i dopiero uczę się rozumieć podstawy, w tym wartości . Ale teraz mam w głowie ogromny znak zapytania i mam nadzieję, że moje zrozumienie jest błędne. Oto mój proces myślowy:p

Czy wszystkie badania na świecie nie przypominają małp w „twierdzeniu o nieskończonej małpie”? Weź pod uwagę, że na świecie istnieje 23887 uniwersytetów. Jeśli każdy uniwersytet ma 1000 studentów, to jest to 23 miliony studentów rocznie.

Powiedzmy, że każdego roku każdy uczeń przeprowadza co najmniej jeden kawałek badań, stosując testowanie hipotez przy .α=0.05

Nie oznacza to, że nawet jeśli wszystkie próbki badawcze zostaną pobrane z losowej populacji, około 5% z nich „odrzuci hipotezę zerową jako nieważną”. Łał. Pomyśl o tym. To około miliona artykułów naukowych publikowanych rocznie z powodu „znaczących” wyników.

Jeśli tak to działa, to jest przerażające. Oznacza to, że wiele „naukowej prawdy”, którą uważamy za pewnik, opiera się na czystej przypadkowości.

Prosta część kodu R wydaje się potwierdzać moje zrozumienie:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Podobnie jest w tym artykule na temat udanego łowienia : I Fooled Millions Into Thinking Chocolate pomaga na odchudzanie. Oto jak .p

Czy to naprawdę wszystko? Czy tak ma działać „nauka”?

n_mu_sigma
źródło
31
Prawdziwy problem jest potencjalnie znacznie gorszy niż pomnożenie liczby prawdziwych wartości zerowych przez poziom istotności, ze względu na presję znalezienia istotności (jeśli ważny dziennik nie opublikuje nieistotnych wyników lub sędzia odrzuci artykuł, który nie mają znaczące wyniki, istnieje presja, aby znaleźć sposób na osiągnięcie znaczenia ... i widzimy wyprawy „polowania na znaczenie” w wielu pytaniach tutaj); może to prowadzić do prawdziwych poziomów istotności, które są znacznie wyższe niż się wydaje.
Glen_b
5
Z drugiej strony, wiele hipotez zerowych jest zerowymi punktami, a te naprawdę bardzo rzadko są prawdziwe.
Glen_b
37
Proszę nie łączyć metody naukowej z wartościami p. Między innymi nauka kładzie nacisk na odtwarzalność . W ten sposób można opublikować artykuły na temat zimnej syntezy jądrowej (w 1989 r.), Ale zimna synteza nie istniała jako możliwa do utrzymania teoria naukowa od ostatniego ćwierćwiecza. Należy również zauważyć, że niewielu naukowców jest zainteresowanych pracą w obszarach, w których odpowiednia hipoteza zerowa jest rzeczywiście prawdziwa . Zatem twoja hipoteza, że ​​„wszystkie próbki badawcze zostały pobrane z losowej populacji” nie odzwierciedla niczego realistycznego.
whuber
13
Obowiązkowe odniesienie do kreskówki galaretki xkcd . Krótka odpowiedź - zdarza się to niestety zbyt często, a niektóre czasopisma nalegają teraz na to, by statystyk sprawdził każdą publikację, aby zmniejszyć liczbę „znaczących” badań, które trafiają do domeny publicznej. Wiele istotnych odpowiedzi i komentarzy w tej wcześniejszej dyskusji
Floris,
8
Być może nie otrzymuję skargi ... „Udało nam się pokonać 95% fałszywych hipotez. Pozostałe 5% nie było tak łatwe do pokonania z powodu przypadkowych wahań wyglądających na znaczące efekty. Powinniśmy przyjrzeć się im bliżej i zignorować inne 95%. ” To brzmi dokładnie jak właściwe zachowanie dla czegoś takiego jak „nauka”.
Eric Towers,

Odpowiedzi:

70

Jest to z pewnością uzasadniona obawa, ale to nie do końca prawda.

Jeśli wykonano 1 000 000 badań i wszystkie hipotezy zerowe są prawdziwe, około 50 000 wyników będzie miało znaczące wyniki przy p <0,05. To właśnie oznacza wartość ap. Jednak zero nie jest w gruncie rzeczy absolutnie prawdziwe. Ale nawet jeśli rozluźnimy to na „prawie prawdziwe” lub „prawie właściwe” lub niektóre inne, oznaczałoby to, że 1 000 000 badań musiałoby dotyczyć takich rzeczy, jak

  • Związek między numerem ubezpieczenia społecznego a IQ
  • Czy długość twoich palców jest związana ze stanem urodzenia?

i tak dalej. Nonsens.

Jednym problemem jest oczywiście to, że nie wiemy, które wartości null są prawdziwe. Innym problemem jest wspomniany w komentarzu @Glen_b - problem z szufladą plików.

Dlatego tak bardzo lubię pomysły Roberta Abelsona, które przedstawił w statystyce jako zasadny argument . Oznacza to, że dowody statystyczne powinny stanowić część zasadniczego argumentu wyjaśniającego, dlaczego coś się dzieje, i należy je oceniać na podstawie kryteriów MAGIC:

  • Wielkość: Jak duży jest efekt?
  • Artykulacja: czy jest pełna „ifs”, „ands” i „buts” (to źle)
  • Ogólność: jak szeroko to dotyczy?
  • Ciekawe
  • Wiarygodność: nieprawdopodobne roszczenia wymagają wielu dowodów
Peter Flom
źródło
4
Czy można nawet powiedzieć „jeśli zostaną wykonane badania 1M, a nawet jeśli wszystkie hipotezy zerowe są prawdziwe, to około 50 000 wykona błąd typu 1 i nieprawidłowo odrzuci hipotezę zerową? Jeśli badacz otrzyma p <0,05, wie tylko, że„ h0 jest poprawne i zdarzyło się rzadkie zdarzenie LUB h1 jest niepoprawny ". Nie ma sposobu, aby powiedzieć, który to jest, patrząc tylko na wyniki tego jednego badania, prawda?
n_mu_sigma
5
Możesz otrzymać fałszywy wynik pozytywny tylko wtedy, gdy wynik dodatni jest w rzeczywistości fałszywy. Jeśli wybrałeś 40 IV, które wszystkie były hałasem, miałbyś dużą szansę na błąd typu I. Ale generalnie wybieramy IV z jakiegoś powodu. A zero jest fałszem. Nie można popełnić błędu typu I, jeśli wartość null jest równa false.
Peter Flom
6
Nie rozumiem w ogóle twojego drugiego akapitu, w tym punktów kulowych. Powiedzmy, że ze względu na argument wszystkie miliony badań testowały związki leków pod kątem wyleczenia określonego stanu. Hipotezą zerową dla każdego z tych badań jest to, że lek nie leczy stanu. Dlaczego więc to musi być „w gruncie rzeczy nigdy ściśle ścisłe”? Ponadto, dlaczego Twoim zdaniem wszystkie badania musiałyby dotyczyć nonsensownych związków, takich jak ss # i IQ? Dziękujemy za wszelkie dodatkowe wyjaśnienia, które mogą pomóc mi zrozumieć Twój punkt widzenia.
Chelonian
11
Aby uczynić przykłady @ PeterFlom konkretnymi: pierwsze trzy cyfry SSN (używane do) kodują kod pocztowy wnioskodawcy. Ponieważ poszczególne stany mają nieco inne dane demograficzne, a wielkość palców może być skorelowana z niektórymi czynnikami demograficznymi (wiek, rasa itp.), Prawie na pewno istnieje związek między numerem ubezpieczenia społecznego a rozmiarem palców - jeśli ktoś ma wystarczającą ilość danych.
Matt Krause,
6
@MattKrause dobry przykład. Wolę liczenie palców według płci. Jestem pewien, że gdybym spisał spis wszystkich mężczyzn i wszystkich kobiet, stwierdziłbym, że jedna płeć ma średnio więcej palców niż druga. Bez pobrania bardzo dużej próbki nie mam pojęcia, która płeć ma więcej palców. Ponadto wątpię, aby jako producent rękawiczek wykorzystałbym dane ze spisu palców przy projektowaniu rękawic.
emory
40

Czy wszystkie badania na świecie nie przypominają małp z „nieskończonego twierdzenia o małpach”?

Pamiętajcie, naukowcy krytycznie NIE są jak nieskończone małpy, ponieważ ich zachowania badawcze - szczególnie eksperymenty - są przypadkowe. Eksperymenty to (przynajmniej powinny) być niezwykle dokładnie kontrolowane manipulacje i pomiary oparte na mechanistycznie poinformowanych hipotezach, które opierają się na dużej liczbie wcześniejszych badań. Nie są to tylko przypadkowe ujęcia w ciemności (lub małpkie palce na maszynach do pisania).

Weź pod uwagę, że na świecie istnieje 23887 uniwersytetów. Jeśli każdy uniwersytet ma 1000 studentów, to 23 miliony studentów każdego roku. Powiedzmy, że każdego roku każdy uczeń przeprowadza co najmniej jedno badanie,

Szacunki dotyczące liczby opublikowanych wyników badań muszą być dalekie. Nie wiem, czy na świecie jest 23 miliony „studentów uniwersytetów” (czy to tylko uniwersytety czy college?), Ale wiem, że zdecydowana większość z nich nigdy nie publikuje żadnych odkryć naukowych. To znaczy, większość z nich nie jest kierunkami naukowymi, a nawet większość kierunków naukowych nigdy nie publikuje wyników.

Bardziej prawdopodobne oszacowanie (pewna dyskusja ) liczby publikacji naukowych rocznie wynosi około 1-2 milionów.

Nie oznacza to, że nawet gdyby wszystkie próbki badań zostały pobrane z losowej populacji, około 5% z nich „odrzuciłoby hipotezę zerową jako nieważną”. Łał. Pomyśl o tym. To około miliona artykułów naukowych publikowanych rocznie z powodu „znaczących” wyników.

Należy pamiętać, że nie wszystkie opublikowane badania mają statystyki, w których znaczenie jest właściwe przy wartości p = 0,05. Często widać wartości p, takie jak p <0,01 lub nawet p <0,001. Oczywiście nie wiem, co „średnia” wartość p wynosi ponad milion papierów.

Jeśli tak to działa, to jest przerażające. Oznacza to, że wiele „naukowej prawdy”, którą uważamy za pewnik, opiera się na czystej przypadkowości.

Należy również pamiętać, że naukowcy naprawdę nie powinni przyjmować niewielkiej liczby wyników przy p około 0,05 jako „prawdy naukowej”. Nawet nie blisko. Naukowcy powinni zintegrować wiele badań, z których każde ma odpowiednią moc statystyczną, wiarygodny mechanizm, odtwarzalność, wielkość efektu itp., I włączyć to do wstępnego modelu działania niektórych zjawisk.

Ale czy to oznacza, że ​​prawie cała nauka ma rację? Nie ma mowy. Naukowcy są ludźmi i padają ofiarą uprzedzeń, złej metodologii badań (w tym niewłaściwych podejść statystycznych), oszustw, zwykłych ludzkich błędów i pecha. Prawdopodobnie bardziej dominujące w tym, dlaczego zdrowa część opublikowanej nauki jest błędna, są te czynniki, a nie konwencja p <0,05. W rzeczywistości przejdźmy do sedna sprawy i stwórzmy jeszcze bardziej „przerażające” stwierdzenie niż to, co przedstawiliście:

Dlaczego większość opublikowanych wyników badań jest fałszywa

Chelonski
źródło
10
Powiedziałbym, że Ioannidis wysuwa rygorystyczny argument, który potwierdza pytanie. Nauka nie robi czegoś podobnego, a wydaje się, że myślą tu optymiści. Wiele opublikowanych badań nigdy się nie powiela. Co więcej, podczas próby replikacji wyniki mają tendencję do poparcia argumentu Ioannidisa, że ​​wiele opublikowanych badań naukowych to w zasadzie bzdury.
matt_black
9
Interesujące może być to, że w fizyce cząstek nasz próg wartości p dla stwierdzenia odkrycia wynosi 0,00000057.
David Z
2
W wielu przypadkach nie ma żadnych wartości p. Matematyka i fizyka teoretyczna są częstymi przypadkami.
Davidmh,
21

p

α

Zobacz np. Niedawną dyskusję artykułu z 2014 r. Autorstwa Davida Colquhoun: Zamieszanie z częstością fałszywych odkryć i wielokrotnych testów (na Colquhoun 2014) . Argumentowałem za tym „co najmniej 30%” szacunkami, ale zgadzam się, że w niektórych dziedzinach badań odsetek fałszywych odkryć może być znacznie wyższy niż 5%. To jest naprawdę niepokojące.

Nie sądzę, że powiedzenie, że zerowa prawie nigdy nie jest prawdą, pomaga tutaj; Błędy typu S i typu M (wprowadzone przez Andrew Gelmana) nie są dużo lepsze niż błędy typu I / II.

Myślę, że tak naprawdę oznacza to, że nigdy nie należy ufać odosobnionemu „znaczącemu” wynikowi.

α107α=0.05

p<0.05p

p<0.05

ameba
źródło
Re „skumulowane wartości p”: Czy możesz po prostu pomnożyć poszczególne wartości p, czy też musisz wykonać potworne kombinatoryki, aby to zadziałało?
Kevin,
pαp
17

Twoja troska jest dokładnie troską, która leży u podstaw dużej części bieżącej dyskusji naukowej na temat odtwarzalności. Jednak prawdziwy stan rzeczy jest nieco bardziej skomplikowany niż sugerujesz.

Najpierw ustalmy terminologię. Testowanie znaczenia hipotezy zerowej można rozumieć jako problem z wykrywaniem sygnału - hipoteza zerowa jest albo prawdą, albo fałszem, i możesz albo ją odrzucić, albo zachować. Kombinacja dwóch decyzji i dwóch możliwych „prawdziwych” stanów rzeczy przedstawia poniższą tabelę, którą większość ludzi widzi w pewnym momencie, gdy po raz pierwszy uczy się statystyki:

wprowadź opis zdjęcia tutaj

Naukowcy, którzy stosują testowanie znaczenia hipotezy zerowej, próbują zmaksymalizować liczbę poprawnych decyzji (pokazanych na niebiesko) i zminimalizować liczbę niepoprawnych decyzji (pokazanych na czerwono). Pracujący naukowcy próbują również publikować swoje wyniki, aby mogli znaleźć pracę i rozwijać swoją karierę.

H0


H0

Stronniczość publikacji

α

p

Stopnie swobody badacza

αα. Biorąc pod uwagę obecność wystarczająco dużej liczby wątpliwych praktyk badawczych, odsetek fałszywie pozytywnych wyników może wzrosnąć nawet do 0,60, nawet jeśli nominalną stawkę ustalono na 0,05 ( Simmons, Nelson i Simonsohn, 2011 ).

Należy zauważyć, że niewłaściwe wykorzystanie stopnia swobody badacza (co jest czasem znane jako wątpliwa praktyka badawcza; Martinson, Anderson i de Vries, 2005 ) nie jest tym samym, co tworzenie danych. W niektórych przypadkach wykluczenie wartości odstających jest słuszne, albo z powodu awarii sprzętu, albo z innego powodu. Kluczową kwestią jest to, że w obliczu stopni swobody badaczy decyzje podejmowane podczas analizy często zależą od tego, jak dane się okażą ( Gelman i Loken, 2014), nawet jeśli badacze nie są tego świadomi. Tak długo, jak naukowcy wykorzystują stopnie swobody badaczy (świadomie lub nieświadomie) do zwiększenia prawdopodobieństwa znaczącego wyniku (być może dlatego, że znaczące wyniki są bardziej „publikowalne”), obecność naukowców o stopniach swobody spowoduje przeludnienie literatury badawczej z fałszywie pozytywnymi wynikami w w ten sam sposób co stronniczość publikacji.


Ważnym zastrzeżeniem powyższej dyskusji jest to, że prace naukowe (przynajmniej w dziedzinie psychologii, która jest moją dziedziną) rzadko składają się z pojedynczych wyników. Bardziej powszechne są liczne badania, z których każde obejmuje wiele testów - nacisk kładzie się na zbudowanie większego argumentu i wykluczenie alternatywnych wyjaśnień przedstawionych dowodów. Jednak selektywna prezentacja wyników (lub obecność stopni swobody badacza) może powodować stronniczość w zestawie wyników równie łatwo jak pojedynczy wynik. Istnieją dowody, że wyniki przedstawione w artykułach z wielu badań są często znacznie czystsze i silniejsze niż można by się spodziewać, nawet jeśli wszystkie prognozy tych badań byłyby prawdziwe ( Francis, 2013 ).


Wniosek

Zasadniczo zgadzam się z Twoją intuicją, że testowanie znaczenia hipotezy zerowej może się nie powieść. Twierdziłbym jednak, że prawdziwymi winowajcami wytwarzającymi wysoki odsetek fałszywych trafień są procesy takie jak stronniczość publikacji i obecność naukowców o stopniach swobody. Rzeczywiście, wielu naukowców zdaje sobie sprawę z tych problemów, a poprawa odtwarzalności naukowej jest bardzo aktywnym bieżącym tematem dyskusji (np. Nosek i Bar-Anan, 2012 ; Nosek, Spies i Motyl, 2012 ). Więc masz dobre towarzystwo ze swoimi obawami, ale myślę też, że istnieją również powody do pewnego ostrożnego optymizmu.


Bibliografia

Stern, JM i Simes, RJ (1997). Błąd w publikacji: dowód na opóźnioną publikację w badaniu kohortowym projektów badań klinicznych. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E.,… Williamson, PR (2008). Systematyczny przegląd dowodów empirycznych stronniczości publikacji badań i stronniczości raportowania wyników. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). Problem z szufladą plików i tolerancja dla pustych wyników. Biuletyn psychologiczny, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Fałszywie pozytywna psychologia: Nieujawniona elastyczność w gromadzeniu i analizie danych pozwala przedstawić wszystko jako tak znaczące. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS i de Vries, R. (2005). Naukowcy źle się zachowują. Nature, 435, 737–738. http://doi.org/10.1038/435737a

Gelman, A., i Loken, E. (2014). Kryzys statystyczny w nauce. American Scientist, 102, 460-465.

Francis, G. (2013). Replikacja, spójność statystyczna i stronniczość publikacji. Journal of Mathematical Psychology, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA i Bar-Anan, Y. (2012). Utopia naukowa: I. Otwarcie komunikacji naukowej. Zapytanie psychologiczne, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR i Motyl, M. (2012). Utopia naukowa: II. Restrukturyzacja zachęt i praktyk w celu promowania prawdy ponad publikowalność Perspectives on Psychological Science, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058

Patrick S. Forscher
źródło
1
+1. Ładna kolekcja linków. Oto jeden bardzo istotny artykuł do sekcji „Stopnie swobody badacza”: Ogród ścieżek rozwidlenia: Dlaczego wielokrotne porównania mogą stanowić problem, nawet jeśli nie ma „wyprawy rybackiej” lub „hakowania p”, a hipoteza badawcza była z wyprzedzeniem postawione przez Andrew Gelmana i Erica Loken (2013).
ameba
Dzięki, @amoeba, za te interesujące odniesienia. Szczególnie podoba mi się to, że Gelman i Loken (2013) sprawiają, że czerpanie korzyści ze stopni swobody badaczy nie musi być świadomym procesem. Zredagowałem swoją odpowiedź, aby dołączyć ten artykuł.
Patrick S. Forscher
Właśnie znalazłem opublikowaną wersję Gelman & Loken (2014) w American Scientist.
Patrick S. Forscher
10

Istotną weryfikacją ważnej kwestii poruszonej w tym pytaniu jest to, że „prawda naukowa” nie opiera się na indywidualnych, odizolowanych publikacjach. Jeśli wynik jest wystarczająco interesujący, skłoni innych naukowców do zbadania konsekwencji tego wyniku. Prace te będą miały tendencję do potwierdzania lub odrzucania pierwotnego ustalenia. W pojedynczym badaniu może istnieć 1/20 szansa na odrzucenie prawdziwej hipotezy zerowej, ale tylko 1/400 zrobienia tego dwa razy z rzędu.

Jeśli naukowcy po prostu powtarzają eksperymenty, dopóki nie znajdą „znaczenia”, a następnie publikują swoje wyniki, problem może być tak duży, jak sugeruje PO. Ale nie tak działa nauka, przynajmniej w moim prawie 50-letnim doświadczeniu w badaniach biomedycznych. Co więcej, publikacja rzadko opowiada o pojedynczym „znaczącym” eksperymencie, ale raczej opiera się na zestawie powiązanych ze sobą eksperymentów (z których każdy musi być sam w sobie „znaczący”), które razem wspierają szerszą, merytoryczną hipotezę.

Znacznie większy problem pochodzi od naukowców, którzy są zbyt przywiązani do własnych hipotez. Następnie mogą nadmiernie interpretować implikacje poszczególnych eksperymentów w celu wsparcia swoich hipotez, angażować się w wątpliwą edycję danych (np. Arbitralnie usuwając wartości odstające) lub (jak widziałem i pomogłem złapać) po prostu uzupełnić dane.

Nauka jest jednak procesem wysoce społecznym, niezależnie od mitologii o szalonych naukowcach ukrywających się wysoko w wieżach z kości słoniowej. Dawanie i przyjmowanie wśród tysięcy naukowców realizujących swoje interesy, w oparciu o to, czego nauczyli się z pracy innych, stanowi najwyższą instytucjonalną ochronę przed fałszywymi pozytywami. Fałszywe ustalenia mogą być czasem utrwalane przez lata, ale jeśli problem jest wystarczająco ważny, proces ostatecznie zidentyfikuje błędne wnioski.

EdM
źródło
6
1/400040
2
Z 23 milionów badań nadal nie mogliśmy stwierdzić, czy 5000 wyników odrzuca hipotezę zerową tylko z powodu hałasu, prawda? To naprawdę jest także problem skali. Gdy będziesz mieć miliony badań, błąd typu 1 będzie powszechny.
n_mu_sigma
3
Gdyby było tylko 5000 błędnych wniosków z 23 000 000 badań, nazwałbym to naprawdę rzadkim !
whuber
3
Przez prawie 50 lat pracy naukowej i poznania innych naukowców nie mogę myśleć o nikim, kto powtórzyłby eksperymenty, dopóki nie osiągną „znaczenia”. Teoretyczna możliwość podniesiona przez @whuber nie jest, moim zdaniem, dużym problemem praktycznym. Znacznie większym problemem praktycznym jest tworzenie danych, albo pośrednio, przez wyrzucenie „wartości odstających”, które nie pasują do założeń, albo po prostu tworzenie „danych” na początek. Zachowań, które widziałem z pierwszej ręki, i nie można ich naprawić, dostosowując wartości p .
EdM,
3
@EdM „Może istnieć 1/20 szansa na odrzucenie prawdziwej hipotezy zerowej w pojedynczym badaniu, ale tylko 1/4 000 zrobienia tego dwa razy z rzędu”. Jak zdobyłeś drugi numer?
Aksakal
5

Aby dodać do dyskusji, oto ciekawy post i późniejsza dyskusja na temat tego, jak ludzie często nie rozumieją wartości p.

W każdym razie należy zachować to, że wartość p jest tylko miarą siły dowodów w odrzuceniu danej hipotezy. Wartość p na pewno nie jest twardym progiem, poniżej którego coś jest „prawdziwe”, a powyżej którego wynika wyłącznie z przypadku. Jak wyjaśniono w poście, o którym mowa powyżej:

wyniki to połączenie rzeczywistych efektów i szansy, to nie jest ani / ani

Antoine
źródło
może to przyczyni się do zrozumienia wartości p: stats.stackexchange.com/questions/166323/…
4

Jak wskazano również w innych odpowiedziach, spowoduje to problemy tylko wtedy, gdy zamierzasz selektywnie rozważyć pozytywne wyniki, w których wykluczona jest hipoteza zerowa. Właśnie dlatego naukowcy piszą artykuły przeglądowe, w których rozważają wcześniej opublikowane wyniki badań i starają się na tej podstawie lepiej zrozumieć temat. Pozostaje jednak problem, który wynika z tak zwanej „stronniczości publikacji”, tzn. Naukowcy częściej piszą artykuł o wyniku dodatnim niż o wyniku ujemnym, również artykuł o wyniku ujemnym jest bardziej prawdopodobne jest odrzucenie do publikacji niż praca z wynikiem pozytywnym.

Stanowi to duży problem, szczególnie w dziedzinach, w których testy statystyczne są bardzo ważne, dziedzina medycyny jest notorycznym przykładem. Dlatego obowiązkowe było zarejestrowanie badań klinicznych przed ich przeprowadzeniem (np. Tutaj ). Musisz więc wyjaśnić konfigurację, w jaki sposób zostanie przeprowadzona analiza statystyczna itp. Itp. Przed rozpoczęciem próby. Wiodące czasopisma medyczne odmówią publikacji artykułów, jeśli badania, które zgłosiły, nie zostały zarejestrowane.

Niestety pomimo tego działania system nie działa tak dobrze .

Hrabia Iblis
źródło
może to przyczyni się do zrozumienia wartości p: stats.stackexchange.com/questions/166323/…
3

Jest to zbliżone do bardzo ważnego faktu dotyczącego metody naukowej: podkreśla ona falsyfikowalność. Najpopularniejsza obecnie filozofia nauki ma koncepcję Karla Poppera dotyczącą falsyfikowalności jako kamienia węgielnego.

Podstawowym procesem naukowym jest zatem:

  • Każdy może domagać się dowolnej teorii w dowolnym momencie. Nauka przyjmie każdą teorię, która jest „falsyfikowalna”. Najbardziej dosłowne znaczenie tego słowa polega na tym, że jeśli komuś innemu nie podoba się roszczenie, osoba ta może wydać środki na obalenie roszczenia. Jeśli nie uważasz, że skarpetki argyle leczą raka, możesz skorzystać z własnego oddziału medycznego, aby go obalić.

  • Ponieważ ten limit wejścia jest monumentalnie niski, tradycyjnie „nauka” jako grupa kulturowa tak naprawdę nie zawiera żadnych pomysłów, dopóki nie podejmie się „dobrego wysiłku” w celu sfałszowania własnej teorii.

  • Akceptacja pomysłów przebiega etapami. Możesz zamienić swoją koncepcję w artykuł w czasopiśmie za pomocą jednego badania i raczej niskiej wartości p. To, co kupuje, to reklama i pewna wiarygodność. Jeśli ktoś jest zainteresowany twoim pomysłem, na przykład jeśli twoja nauka ma zastosowania inżynieryjne, może chcieć go użyć. W tym czasie są bardziej prawdopodobne, że sfinansują dodatkową rundę fałszowania.

  • Proces ten idzie naprzód, zawsze z takim samym nastawieniem: wierzcie w to, co chcecie, ale aby nazwać to nauką, muszę być w stanie to później obalić.

Ten niski pasek wejściowy pozwala mu być tak innowacyjnym. Tak, istnieje wiele teoretycznie „niewłaściwych” artykułów w czasopismach. Kluczem jest jednak to, że każdy opublikowany artykuł jest teoretycznie falsyfikowalny, więc w dowolnym momencie ktoś mógłby wydać pieniądze na jego przetestowanie.

To jest klucz: czasopisma zawierają nie tylko rzeczy, które pomyślnie przeszły odpowiedni test p, ale zawierają także klucze umożliwiające innym rozmontowanie go, jeśli wyniki okażą się fałszywe.

Cort Ammon
źródło
1
To jest bardzo idealistyczne. Niektórzy obawiają się, że zbyt wiele niewłaściwych dokumentów może stworzyć zbyt niski stosunek sygnału do szumu w literaturze i poważnie spowolnić lub wprowadzić w błąd proces naukowy.
ameba
1
@amoeba Podnosisz dobrą rację. Z pewnością chciałem uchwycić idealną skrzynkę, ponieważ często gubię ją w hałasie. Poza tym myślę, że pytanie SNR w literaturze jest ważnym pytaniem, ale przynajmniej to powinno być możliwe do zrównoważenia. Istnieją już koncepcje dobrych czasopism a kiepskich, więc są pewne wskazówki, że ten balansowanie trwa już od jakiegoś czasu.
Cort Ammon,
To zrozumienie filozofii nauki wydaje się być kilka dekad nieaktualne. Falsyfikowalność Poppera jest „popularna” w tym sensie, że jest powszechnym miejskim mitem o tym, jak dzieje się nauka.
EnergyNumbers
@EnergyNumbers Czy mógłbyś mnie oświecić na temat nowego sposobu myślenia? Filozofia SE ma zupełnie inne zdanie niż twoje. Jeśli spojrzeć na historię zapytania tam, Popperowską falsyfikowalność jest Cechą charakterystyczną nauki dla większości tych, którzy mówili swój głos. Chciałbym nauczyć się nowego sposobu myślenia i wprowadzić go tam!
Cort Ammon
Nowy? Kuhn obalił Poppera kilkadziesiąt lat temu. Jeśli nie masz jednego posta Popperian na filozofii.se, to aktualizacja go wydaje się straconą przyczyną - po prostu zostaw to w latach 50. XX wieku. Jeśli chcesz się zaktualizować, to każdy elementarz licencjacki z XXI wieku na filozofii nauki powinien zacząć.
EnergyNumbers
1

Czy tak ma działać „nauka”?

Tak działa wiele nauk społecznych. Nie tyle w naukach fizycznych. Pomyśl o tym: wpisałeś swoje pytanie na komputerze. Ludzie byli w stanie zbudować te skomplikowane bestie zwane komputerami, wykorzystując wiedzę z zakresu fizyki, chemii i innych dziedzin fizyki. Gdyby sytuacja była tak zła, jak opisałeś, żadna elektronika nie działałaby. Albo pomyśl o takich rzeczach, jak masa elektronu, która jest znana z niesamowitą precyzją. Przechodzą przez miliardy bramek logicznych w komputerze ponad, a twój komputer nadal działa i działa przez lata.

AKTUALIZACJA: Aby odpowiedzieć na głosy, które otrzymałem, poczułem inspirację, aby podać kilka przykładów.

Pierwszy pochodzi z fizyki: Bystritsky, VM, i in. „ Pomiar astrofizycznych czynników S i przekrojów reakcji p (d, γ) 3He w obszarze ultra niskiej energii przy użyciu celu deuteridu cyrkonu ”. Fizyka cząstek i listów jądrowych 10.7 (2013): 717-722.

0.237±0.061

Mój następny przykład pochodzi z ... psychologii: Paustian-Underdahl, Samantha C., Lisa Slattery Walker i David J. Woehr. „ Płeć i postrzeganie skuteczności przywództwa: metaanaliza moderatorów kontekstowych ”. Journal of Applied Psychology, 2014, t. 99, nr 6, 1129–1145.

χ2

Teraz spójrz na niektóre tabele z dokumentów i zgadnij, z których dokumentów pochodzą:

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

Oto odpowiedź, dlaczego w jednym przypadku potrzebujesz „fajnych” statystyk, aw innym nie: ponieważ dane są albo kiepskie, albo nie. Gdy masz dobre dane, nie potrzebujesz wielu statystyk poza standardowymi błędami.

AKTUALIZACJA2: @ PatrickS.Forscher wypowiedział ciekawe komentarz w komentarzu:

Prawdą jest również to, że teorie nauk społecznych są „bardziej miękkie” (mniej formalne) niż teorie fizyki.

Muszę się nie zgodzić. W ekonomii i finansach teorie wcale nie są „miękkie”. Możesz losowo wyszukać artykuł w tych polach i uzyskać coś takiego:

wprowadź opis zdjęcia tutaj

i tak dalej.

Pochodzi od Schervisha, Marka J., Teddy Seidenfelda i Josepha B. Kadane. „ Rozszerzenia oczekiwanej teorii użyteczności i pewne ograniczenia porównań par ”. (2003). Czy to dla ciebie wygląda miękko?

Powtarzam tutaj, że kiedy twoje teorie nie są dobre, a dane są kiepskie, możesz użyć najtrudniejszej matematyki i nadal uzyskać gówniany wynik.

W tym artykule mówią o użyteczności, koncepcji takiej jak szczęście i satysfakcja - absolutnie nie do zaobserwowania. Jak to jest pożytek z posiadania domu w porównaniu do jedzenia cheeseburgera? Prawdopodobnie jest ta funkcja, w której można podłączyć „jeść cheeseburgera” lub „żyć we własnym domu”, a funkcja wypluwa odpowiedź w niektórych jednostkach. Choć to szalone, na tym polega nowoczesna ekonomia, dzięki von Neumanowi.

Aksakal
źródło
1
+1 Nie jestem pewien, dlaczego zostało to dwukrotnie ocenione. Zasadniczo zwracacie uwagę na to, że odkrycia w fizyce mogą być testowane eksperymentami, a większość „odkryć” w naukach społecznych nie może być, co nie powstrzymuje ich przed przyciągnięciem uwagi mediów.
Flądrowiec
6
Większość eksperymentów ostatecznie wiąże się z jakimś testem statystycznym i nadal pozostawia miejsce na błędy typu 1 i niewłaściwe zachowania, takie jak połowy wartości p. Myślę, że wyróżnienie nauk społecznych jest nieco odbiegające od normy.
Kenji,
4
Aby nieco zmienić to, co mówi @GuilhermeKenjiChihaya, odchylenie standardowe błędów można przypuszczalnie wykorzystać do przeprowadzenia testu statystycznego w eksperymentach fizycznych. Przypuszczalnie ten test statystyczny doprowadziłby do tego samego wniosku, do którego doszli autorzy po obejrzeniu wykresu z paskami błędów. Główną różnicą w pracach fizyki jest zatem ilość szumu w eksperymencie, różnica niezależna od tego, czy logika leżąca u podstaw zastosowania wartości p jest poprawna lub nieprawidłowa.
Patrick S. Forscher,
3
Ponadto, @Flounderer, wydaje się, że używasz terminu „eksperyment” w sensie, z którym nie jestem zaznajomiony, ponieważ naukowcy społeczni cały czas przeprowadzają „eksperymenty” (tj. Randomizację jednostek do warunków). Prawdą jest, że eksperymenty z naukami społecznymi są trudne do kontrolowania w takim samym stopniu, jak w eksperymentach fizycznych. Prawdą jest również to, że teorie nauk społecznych są „bardziej miękkie” (mniej formalne) niż teorie fizyki. Ale czynniki te są niezależne od tego, czy dane badanie jest „eksperymentem”.
Patrick S. Forscher,
2
@Aksakal, chociaż nie zgadzam się z -1, częściowo również nie zgadzam się z twoim krytykiem nauk społecznych. Twój przykład papieru gospodarczej nie jest dobrym przykładem tego, co socjologowie robić codziennie, bo teoria narzędzie jest ściśle ekonomiczny / pojęcie matematyczne / statystyczny (tak to już ma matematyki w nim) i nie przypomina np teorie psychologiczne, które są testowane eksperymentalnie ... Zgadzam się jednak, że często zdarza się, że statystyki są używane luźno w wielu obszarach badań, w tym w naukach społecznych.
Tim