Konsekwencje bieżącej debaty na temat znaczenia statystycznego

10

W ciągu ostatnich kilku lat różni uczeni podnieśli szkodliwy problem testowania hipotez naukowych, nazwany „stopniem swobody badacza”, co oznacza, że ​​naukowcy mają podczas swojej analizy wiele wyborów, które mogą wpływać na znalezienie wartości p <5%. Te niejednoznaczne wybory to na przykład, który przypadek należy uwzględnić, który przypadek jest sklasyfikowany jako odstający, uruchamiając liczne specyfikacje modelu, dopóki coś się nie pojawi, nie publikuje wyników zerowych itp. (Artykuł, który wywołał tę debatę w psychologii jest tutaj , zobacz popularny artykuł Slate i następną debatę Andrew Gelmana tutaj , a magazyn Time również porusza ten temat tutaj .)

Po pierwsze , jedno pytanie wyjaśniające:

Czas magazyn napisał

„Moc 0,8 oznacza, że ​​spośród dziesięciu przetestowanych prawdziwych hipotez wykluczone zostaną tylko dwie, ponieważ ich skutki nie są uwzględniane w danych;”

Nie jestem pewien, jak to pasuje do definicji funkcji mocy, którą znalazłem w podręczniku, co oznacza prawdopodobieństwo odrzucenia wartości null jako funkcji parametru . Z różnym mamy różną moc, więc nie do końca rozumiem powyższy cytat.θθθ

Po drugie , niektóre implikacje badawcze:

  1. W mojej dziedzinie nauk politycznych / ekonomii uczeni po prostu wykorzystują wszystkie dostępne dane z danego roku. Czy zatem nie powinniśmy się tym przejmować próbami majstrowania?

  2. Czy problem z uruchomieniem wielu testów, ale zgłaszaniem tylko jednego modelu, można rozwiązać po prostu przez fakt, że ktoś inny w tej dziedzinie ponownie przetestuje Twój artykuł i od razu cię powali za brak wiarygodnych wyników? Przewidując to, uczeni w mojej dziedzinie chętniej dołączą robustness checksekcję, w której pokazują, że specyfikacja wielu modeli nie zmienia wyniku. Czy to wystarczy?

  3. Andrew Gelman i inni podnoszą kwestię, że bez względu na dane, zawsze można znaleźć i opublikować jakiś „wzorzec”, którego tak naprawdę nie ma. Nie powinno to jednak stanowić problemu, biorąc pod uwagę fakt, że jakikolwiek empiryczny „wzorzec” musi być poparty teorią, a rywalizujące teorie w ramach dyscypliny po prostu zaangażują się w debatę / wyścig, aby ustalić, który obóz może znaleźć więcej „wzorców” w różnych miejscach. Jeśli wzór jest naprawdę fałszywy, wówczas podstawowa teoria zostanie szybko obalona, ​​gdy nie będzie podobnego wzoru w innych próbkach / ustawieniach. Czy nie tak postępuje nauka?

  4. Zakładając, że obecny trend czasopism o zerowym wyniku faktycznie rozkwitnie, czy istnieje sposób na zebranie razem wszystkich zerowych i pozytywnych wyników i wyciągnięcie wniosków na temat teorii, którą wszyscy próbują przetestować?

Heisenberg
źródło
Zobacz także „Testowanie teorii w psychologii i fizyce: paradoks metodologiczny” . „Hipoteza zerowa” jest zawsze fałszywa dla twojego pola. Nawet przy odpowiednich praktykach badawczych testy istotności i testy hipotez są prawdopodobnie nieodpowiednie.
Flask
Twoje pytanie 1 jest sprzeczne z pytaniem 3. Czy w polsci / ekonomii są dostępne inne próbki / ustawienia?
Flask

Odpowiedzi:

11

Zamiast używać wartości p do oceny roszczeń, powinniśmy postępować zgodnie z radą Roberta Abelsona i stosować kryteria MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Więcej informacji na temat Abelsona znajduje się w mojej recenzji jego książki

I powinniśmy koncentrować się na rozmiarach efektów, a nie na wartościach p w wynikach statystycznych (z możliwym wyjątkiem niektórych rodzajów eksploracji danych, na których w ogóle nie jestem ekspertem). Rozmiary efektów należy oceniać w kontekście:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Statystyk / analityk danych nie powinien być jakąś dziwną osobą, używaną jak czarna skrzynka, w której umieszczane są dane i z których pobierane są wartości p; powinien on / ona być współpracownikiem w badaniach mających na celu uzasadnienie argumentu na temat znaczenia pewnego zestawu danych w kontekście pewnej dziedziny, biorąc pod uwagę obecne teorie (lub ich brak) i aktualne dowody (lub ich brak).

Niestety, takie podejście wymaga przemyślenia badaczy merytorycznych, analityka danych i każdego, kto przegląda wyniki (czy to spiczasty szef, komitet rozprawy, redaktor czasopisma czy ktokolwiek). Co dziwne, nawet naukowcy wydają się być przeciwni tego rodzaju myślom.

Więcej informacji na temat moich poglądów znajduje się w artykule, który napisałem w Sciences360.

Peter Flom
źródło
4
+1 Chociaż z całą pewnością się z tobą zgadzam, mogę sobie wyobrazić, że powiedzenie „moje roszczenie jest poparte przez MAGIC” może nie zawsze być pomocne :-)
Marc Claesen,
1
Tak, musiałbyś to przeliterować, ale jeśli tak, myślę, że to może zadziałać: „Są to duże efekty, które mają kilka wyjątków, wpływają na dużą liczbę ludzi, są interesujące, ponieważ XXXX i są wiarygodne, ponieważ XXXX” może zadziałać. Nie widziałem, żeby próbował. :-)
Peter Flom
1
Tak; roszczenie jest „wiarygodne”, jeśli istnieje teoria, która mówi, jak to się mogło stać; jeśli jest replikowany i tak dalej. Jest to mniej wiarygodne, jeśli nie ma fizycznego ani innego wyjaśnienia teoretycznego. Im mniej wiarygodne roszczenie, tym więcej dowodów jest na to potrzebne.
Peter Flom
2
@Anh Wiarygodność w nauce powinna być mierzona przez to, jak dobrze teorie przewidują zjawiska nieużywane w rozwoju teorii. Przy ocenie, czy prognozy były dobre, wiarygodność wymaga replikacji przez niezależnych badaczy. Istnieje mnóstwo dowodów empirycznych, że zarówno testowanie istotności, jak i testowanie hipotez wydają się faktycznie zniechęcać do obu zachowań, zamiast zachęcać do nieproduktywnych działań stronniczości publikacji i „hakowania” arbitralnego „znaczenia” odciętego.
Flask
1
@Flask - Powiedziałbym, że wartości p niekoniecznie są problemem, bardziej niż problem ze słabymi testami hipotez. Fizyka również używa wartości p, ale z hipotezą, która prowadzi do prognoz punktowych (tj. Faktyczna hipoteza zerowa). Znalezienie „pozytywnego efektu” jest w zasadzie bezużyteczne do budowania teorii - musisz dokonać oszacowania punktowego, aby poprawnie potwierdzić teorię.
probabilityislogic
3

Dziedzina nauk statystycznych zajmowała się tymi zagadnieniami od samego początku. Ciągle powtarzam, że rolą statystyki jest zapewnienie, aby poziom błędu typu 1 pozostał stały. Oznacza to, że nie można wyeliminować ryzyka wyciągnięcia fałszywie pozytywnych wniosków, ale można je kontrolować. Powinno to zwrócić naszą uwagę na niezwykle dużą liczbę prowadzonych badań naukowych, a nie na filozofię i etykę ogólnej praktyki statystycznej. Za każdy niesamowity (niewiarygodny) wynik, który pojawił się w mediach (lub w polityce rządu), co najmniej 19 innych niewiarygodnych wyników zostało zestrzelonych za ich nieważne ustalenia.

Rzeczywiście, jeśli pójdziesz na, powiedzmy, clintrials.gov, zauważysz, że istnieje (dla prawie każdego wskazania choroby) znacznie ponad 1000 badań klinicznych dla środków farmaceutycznych trwających obecnie w USA. Oznacza to, że przy fałszywie dodatnim poziomie błędu 0,001 średnio co najmniej 1 lek zostanie umieszczony na półkach, co nie ma wpływu. Ważność 0,05 jako potwierdzonego progu istotności statystycznej była kwestionowana wielokrotnie. Jak na ironię, tylko statystycy czują się niekomfortowo przy użyciu 1/20 fałszywie dodatniego poziomu błędu, podczas gdy interesariusze finansowi (PI lub Merck) będą wytrwale podążać za przekonaniami bez względu na wyniki in vitro, dowody teoretyczne lub siłę wcześniejszych dowodów. Szczerze, ta wytrwałość to udana i godna pochwały osobowość wielu osób, które odniosły sukces w rolach niestatystycznych. Na ogół siedzą oni nad statystykami, w swoich odpowiednich totemach, którzy mają tendencję do wywierania nacisku na tę wytrwałość.

Myślę, że przedstawiony przez ciebie czas jest całkowicie błędny. Moc to prawdopodobieństwo odrzucenia hipotezy zerowej, biorąc pod uwagę jej fałsz. Co ważniejsze, zależy to od tego, jak „fałszywa” jest hipoteza zerowa (która z kolei zależy od mierzalnego rozmiaru efektu). Rzadko mówię o mocy poza kontekstem efektu, który uznalibyśmy za „interesujący” do wykrycia. (na przykład 4-miesięczne przeżycie po chemioterapeutycznym leczeniu raka trzustki w stadium 4 nie jest interesujące, dlatego nie ma powodu, aby rekrutować 5000 osób do badania fazy 3).

Aby odpowiedzieć na zadane pytania

  1. ???

  2. Wielokrotność jest trudna, ponieważ nie prowadzi do oczywistej reguły decyzyjnej dotyczącej sposobu obsługi danych. Załóżmy na przykład, że interesuje nas prosty test średniej różnicy. Pomimo nieskończonych protestów moich kolegów łatwo jest wykazać, że test t jest dobrze skalibrowany w celu wykrycia różnic średnich niezależnie od rozkładu próbkowania danych. Załóżmy, że naprzemiennie podążaliśmy ich ścieżką. Rozpoczną od przetestowania normalności przy użyciu jakiegoś wariantu dobrze znanego testu dystrybucyjnego (powiedzmy kalibracji qqplot). Jeśli dane wydają się wystarczająco nienormalne, pytają, czy dane następują po jakiejkolwiek dobrze znanej transformacji, a następnie stosują transformację Boxa Coxa, aby określić transformację mocy (ewentualnie logarytmiczną), która maksymalizuje entropię. Jeśli pojawi się oczywista wartość liczbowa, użyją tej transformacji. Jeśli nie, użyją testu Wilcoxona „bez dystrybucji”. W przypadku tej sekwencji zdarzeń ad hoc nie mogę zacząć mieć nadziei, jak obliczyć kalibrację i moc dla prostego testu średnich różnic, gdy wystarczyłby prosty, głupi test t. Podejrzewam, że takie głupie czyny można powiązać matematycznie z superwydajnym oszacowaniem Hodge'a: estymatorami, które mają wysoką moc pod określoną hipotezą, którą chcemy być prawdą. Niemniej jednak ten proces jest superadekwatne oszacowanie: estymatory, które są dużą mocą pod określoną hipotezą, że chcemy być prawdą. Niemniej jednak ten proces jest superadekwatne oszacowanie: estymatory, które są dużą mocą pod określoną hipotezą, że chcemy być prawdą. Niemniej jednak ten proces jestnie statystyczny, ponieważ poziom fałszywie dodatnich błędów nie był kontrolowany.

  3. Pomysł, że trendy można „odkryć” błędnie w dowolnym losowym zbiorze danych, prawdopodobnie wywodzi się z dobrze napisanego artykułu Martina zwanego „Siatką statystyczną Munchaesena” . Jest to bardzo pouczająca lektura i pochodzi z 1984 roku, zanim narodziło się nam złote cielę uczenia maszynowego, tak jak go obecnie znamy. Rzeczywiście poprawnie sformułowana hipoteza jest możliwa do sfalsyfikowania, ale błędy typu 1 stały się znacznie bardziej kosztowne w naszym społeczeństwie opartym na danych niż kiedykolwiek wcześniej. Rozważmy na przykład sfałszowane dowody badań anty-szczepionkowych, które doprowadziły do ​​masowej sekwencji zgonów krztuśca. Wyniki, które odrzuciły publiczną defenestrację szczepionek, zostały połączone w jednym badaniu(co, choć błędne, nie zostało potwierdzone badaniami zewnętrznymi). Istnieje etyczny impuls do przeprowadzania wyników i zgłaszania siły dowodów uczciwości wobec dobra. Jak silny jest dowód? Ma to niewiele wspólnego z uzyskaną wartością p, ale wartość p, o której mówiłeś, że nazwiesz znaczącą. I pamiętaj, że fałszowanie danych zmienia wartość p, nawet jeśli w końcowym teście potwierdzającym zgłoszono coś innego (często znacznie mniejszego).

  4. TAK! W metaanalizach opublikowanych przez czasopisma, takie jak raport Cochrane, wyraźnie widać, że rozkład wyników testu wygląda bardziej dwumodalnie niż noraml, a jedynie pozytywne i negatywne wyniki przekształcają się w czasopisma. Dowody te są absolutnie szalone i mylące dla każdego w praktyce klinicznej. Jeśli zamiast tego opublikujemy wyniki zerowe (pochodzące z badań, których wynikami bylibyśmy zainteresowani, niezależnie od tego, jakie będą ), możemy spodziewać się, że metaanaliza faktycznie przedstawi dowody, które są znaczące i reprezentatywne.

AdamO
źródło
1
W „ O prawdopodobieństwie jako podstawie działania” William Deming rozróżnia badania „wyliczeniowe” i „analityczne”. Podkreśla, że ​​wyniki każdego eksperymentu są uzależnione od dokładnego środowiska eksperymentu, dlatego statystycy próbują kontrolować „poziom błędu typu I” zawsze będzie o nieznaną wartość wyłączony, gdy leczenie jest stosowane w różnych warunkach .
Flask
@Flask Podobnie żadna procedura mechaniczna na międzynarodowej stacji kosmicznej nie jest idealnie skalibrowana, ale dbałość inżynierów o szczegóły i minimalizacja błędów sprawiły, że nie znaleźliśmy Space Oddity na naszych rękach.
AdamO,
Inżynierowie (miejmy nadzieję) testują komponenty we wszystkich oczekiwanych warunkach, a następnie dodają dodatkowy margines błędu w oparciu o modele, które generują. Jest to rodzaj zachowania zalecanego przez Deminga i różni się od próby wyciągnięcia wniosków na temat przyszłego wykonania leczenia lub związku między czynnikami od oceny błędu próbkowania tylko jednego badania. To bardzo interesujące rozróżnienie, o którym nigdzie indziej nie wspominałem.
Flask
Nie sądzę, aby w ogóle można było powiedzieć, że „proces nie jest statystyczny, ponieważ fałszywie dodatni poziom błędu nie był kontrolowany”. Statystyka to znacznie więcej niż częstość dzięki kontrolowaniu poziomu błędu, a bity nieczęsto występujące są bardziej przydatne dla nauki. Być może chciałbyś przeczytać mój niedawno opracowany artykuł na ten temat: arxiv.org/abs/1311.0081
Michael Lew
1
@Adamo Brak jakiejkolwiek kwantyfikacji dowodów w wnioskach częstych jest rzeczywiście popularną opinią wśród Bayesianów (i prawdopodobieństw), ale jest dobrze potwierdzony i był wyraźnie wyrażoną opinią Neymana i Pearsona w pierwszym artykule, w którym opracowali metody częstokroć! Może powinieneś przeczytać mój artykuł z otwartym umysłem. Wszystkie informacje są dostępne.
Michael Lew
3

Po pierwsze, nie jestem statystykiem, po prostu badaczem, który analizował to przez ostatnie lata, aby dowiedzieć się, dlaczego metody, które obserwuję stosowane są wokół mnie, tak bardzo brakuje i dlaczego tak wiele zamieszania w odniesieniu do podstawowych pojęć, takich jak „co” jest wartością p? ” Dam swoją perspektywę.

Po pierwsze, jedno pytanie wyjaśniające:

Magazyn Time napisał:

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

dane;"

Nie jestem pewien, jak to pasuje do definicji funkcji mocy, którą znalazłem w podręczniku, co oznacza prawdopodobieństwo odrzucenia wartości null jako funkcji parametru θ. Z różnym θ mamy różną moc, więc nie do końca rozumiem powyższy cytat.

Moc jest funkcją θ, wariancji i wielkości próbki. Nie jestem pewien, co to za zamieszanie. Również w wielu przypadkach, w których stosuje się testowanie istotności, hipoteza zerowa średniej1 = średnia2 jest zawsze fałszywa. W tych przypadkach znaczenie jest tylko funkcją wielkości próby. Proszę przeczytać „Testy teorii w psychologii i fizyce: paradoks metodologiczny” Paula Meehla, wyjaśnił mi wiele rzeczy i nigdy nie spotkałem się z odpowiednią odpowiedzią. Paul Meehl ma kilka innych artykułów na ten temat, które można znaleźć, wyszukując jego imię.

W mojej dziedzinie nauk politycznych / ekonomii uczeni po prostu wykorzystują wszystkie dostępne dane z danego roku. Czy zatem nie powinniśmy się tym przejmować próbami majstrowania?

Jeśli czytasz artykuł Simmons 2011, jest to tylko jedna z wymienionych technik „hakowania p”. Jeśli prawdą jest, że istnieje tylko jeden zestaw danych i nikt nie wybiera z niego selektywnych próbek, to chyba nie ma miejsca na zwiększenie wielkości próbki.

Czy problem z uruchomieniem wielu testów, ale zgłaszaniem tylko jednego modelu, można rozwiązać po prostu przez fakt, że ktoś inny w tej dziedzinie ponownie przetestuje Twój artykuł i od razu cię powali za brak wiarygodnych wyników? Przewidując to, uczeni w mojej dziedzinie są bardziej skłonni do włączenia sekcji sprawdzania niezawodności, w której pokazują, że wiele specyfikacji modelu nie zmienia wyniku. Czy to wystarczy?

Gdyby replikacja odbywała się bez stronniczości publikacji, nie byłoby potrzeby „dzienników o zerowym wyniku”. Powiedziałbym, że sekcja kontroli niezawodności jest dobra, ale nie wystarczająca w przypadku, gdy naukowcy nie opublikują wyników, które uważają za nieważne. Nie uważałbym również wyniku za solidny tylko dlatego, że wiele technik analizy tych samych danych doszło do tego samego wniosku. Solidny wynik to taki, który prawidłowo prognozuje wpływ / korelację / etc na nowe dane .

Replikacja nie otrzymuje p <0,05 za każdym razem. Teorię należy uznać za bardziej wiarygodną, ​​jeśli przewiduje inny efekt / korelację / itp. Niż zastosowany w pierwszym badaniu. Nie odnoszę się do obecności efektu lub korelacji, ale dokładną wartość lub niewielki zakres wartości w porównaniu z możliwym zakresem wartości. Obecność efektu zwiększonego / zmniejszonego lub korelacji dodatniej / ujemnej jest 100% prawdopodobna w przypadku fałszywej hipotezy zerowej. Czytaj Meehl.

Andrew Gelman i inni podnoszą kwestię, że bez względu na dane, zawsze można znaleźć i opublikować jakiś „wzorzec”, którego tak naprawdę nie ma. Nie powinno to jednak stanowić problemu, biorąc pod uwagę fakt, że jakikolwiek empiryczny „wzorzec” musi być poparty teorią, a rywalizujące teorie w ramach dyscypliny po prostu zaangażują się w debatę / wyścig, aby ustalić, który obóz jest w stanie znaleźć więcej „wzorców” w różnych miejscach. Jeśli wzór jest naprawdę fałszywy, wówczas podstawowa teoria zostanie szybko obalona, ​​gdy nie będzie podobnego wzoru w innych próbkach / ustawieniach. Czy nie tak postępuje nauka?

Nauka nie może funkcjonować poprawnie, jeśli badacze nie opublikują wyników o wartości zerowej. Również fakt, że wzór nie został wykryty w drugiej próbce / ustawieniu, nie oznacza, że ​​nie istnieje on w warunkach wstępnego badania.

Zakładając, że obecny trend czasopism o zerowym wyniku faktycznie rozkwitnie, czy istnieje sposób na zebranie razem wszystkich zerowych i pozytywnych wyników i wyciągnięcie wniosków na temat teorii, którą wszyscy próbują przetestować?

To byłaby metaanaliza . W tym przypadku nie ma nic szczególnego w pustych wynikach poza tym, że badacze nie publikują ich, ponieważ wartości p były powyżej arbitralnego progu. W przypadku błędu systematycznego publikacji metaanaliza jest niewiarygodna, podobnie jak cała literatura cierpiąca na błąd systematyczny publikacji. Chociaż może być użyteczna, metaanaliza jest o wiele gorsza do oceny teorii niż dokładna prognoza, która jest następnie testowana. Odchylenie publikacji nie ma znaczenia tak długo, jak długo pojawiają się nowe prognozy i są one powielane przez niezależne grupy.

Kolba
źródło
Moje zamieszanie związane z cytatem Czas polega na tym, że funkcja mocy nie powinna być ograniczona do momentu, gdy null jest prawdziwe, jak sugeruje cytat. Dziedziną funkcji mocy jest cała przestrzeń parametrów, jeśli się nie mylę. A zatem nie ma określonej „mocy 0,8”, którą można przypisać do testu.
Heisenberg,
Zgadzam się w pełni z tobą, że teoria wymaga przetestowania na nowych danych. Ale w przypadku nauk politycznych lub makroekonomii, gdzie mamy tyle krajów i tyle lat, czy wysiłek jest koniecznie udaremniony?
Heisenberg,
@ Co sekundę pojawiają się nowe dane do dodania. Teoria powinna przewidywać przyszłość. W astronomii przewidywano na przykład położenie komet. Obliczasz również moc dla oczekiwanej wartości parametru. W przypadku cytatu odnosiłyby się one do mocy testowania teorii, która przewidywała korelację co najmniej r = 0,5.
Flask
Wyjaśnienie r = 0,5 byłoby przykładem korelacji przewidywanej przez teorię.
Flask
2

Ujmę to po prostu, ponieważ testowanie zerowej hipotezy tak naprawdę dotyczy tylko hipotezy zerowej. Ogólnie rzecz biorąc, hipoteza zerowa nie jest zwykle przedmiotem zainteresowania i może nawet nie być „status quo” - szczególnie w przypadku testowania hipotez typu regresyjnego. Często w naukach społecznych nie ma status quo, więc hipoteza zerowa może być dość dowolna. Ma to ogromną różnicę w analizie, ponieważ punkt początkowy jest niezdefiniowany, więc różne badania zaczynają się od innej hipotezy zerowej, najprawdopodobniej na podstawie wszelkich dostępnych danych. Porównaj to z czymś takim, jak prawa ruchu Newtona - sensownie jest przyjąć to za hipotezę zerową i spróbuj znaleźć lepsze teorie od tego punktu początkowego.

Ponadto wartości p nie obliczają prawidłowego prawdopodobieństwa - nie chcemy wiedzieć o prawdopodobieństwach ogona, chyba że hipoteza alternatywna jest bardziej prawdopodobna, gdy zbliżasz się do ogonów. To, czego tak naprawdę chcesz, to to, jak dobrze teoria przewiduje to, co faktycznie było widziane. Załóżmy na przykład, że przewiduję, że istnieje 50% szans na „lekki prysznic”, a mój konkurent przewiduje, że istnieje 75% szansy. To okazuje się słuszne i obserwujemy lekki deszcz. Teraz, kiedy zdecydujesz, która osoba pogodowa jest poprawna, nie powinieneś dawać mojej prognozie dodatkowego uznania za to, że daje 40% szansy na „burzę”, ani nie odbierać mojego konkurenta za dawanie „burzy” 0% szansy.

IDH

BF=P(D|HI)P(D|H¯I)

Jeśli dane są niemożliwe zważywszy, że jest fałszywe, a następnie i stajemy się pewni . Wartość p zazwyczaj daje licznik (lub jego przybliżenie / transformację). Należy jednak zauważyć, że mała wartość p stanowi dowód na wartość zerową tylko wtedy, gdy istnieje alternatywna hipoteza pasująca do danych. Możesz wymyślić sytuacje, w których wartość p wynosząca faktycznie zapewnia wsparcie dla hipotezy zerowej - tak naprawdę zależy to od alternatywy.HBF=H0.001

Istnieje dobrze znany i łatwo niezrozumiały przykład empiryczny, w którym moneta jest razy, a liczba głów wynosi - nieco mniej niż połowa. Model zerowy to a alternatywą jest i dla marginalnego modelu (DU = dyskretny jednolity). Wartość p dla hipotezy zerowej jest bardzo mała , więc odrzuć zerową i opublikuj, prawda? Ale spójrz na współczynnik Bayesa, podany przez:104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)p = 0,00015yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

Jak to może być? Współczynnik Bayesa wspiera hipotezę zerową pomimo małej wartości p? Cóż, spójrz na alternatywę - dało to prawdopodobieństwo zaobserwowanej wartości - alternatywa nie zapewnia dobrego wyjaśnienia faktów - więc zero jest bardziej prawdopodobne, ale tylko względem alternatywy . Zauważ, że wartość null robi tylko nieznacznie lepiej niż to - . Ale to wciąż lepsze niż alternatywa.0,000000111n+1=0.00000000960.00000011

Jest to szczególnie prawdziwe w przypadku krytykowanym przez Gelmana - przetestowano tylko tak naprawdę jedną hipotezę i nie zastanawiano się zbytnio nad: a) jakie są alternatywne wyjaśnienia (w szczególności na temat mylących i nie kontrolowanych efektów), b) ile kosztują alternatywy poparte wcześniejszymi badaniami, a co najważniejsze, c) jakie przewidywania czynią (jeśli w ogóle), które zasadniczo różnią się od wartości zerowej?

Zauważ jednak, że jest niezdefiniowany i zasadniczo reprezentuje wszystkie inne hipotezy zgodne z wcześniejszymi informacjami. Jedynym sposobem, w jaki naprawdę można właściwie przetestować hipotezy, jest określenie zakresu alternatyw , które zamierzasz porównać. I nawet jeśli to zrobisz, powiedzmy, że masz , możesz zgłosić tylko fakt, że dane obsługują stosunku do tego, co określiłeś. Jeśli pominiesz ważną hipotezę z zestawu alternatyw, możesz spodziewać się nonsensownych rezultatów. Dodatkowo dana alternatywa może okazać się znacznie lepsza niż inne, ale nadal mało prawdopodobna. Jeśli masz jeden test, w którym wartość p wynosi H1,,HKHk0,010,1H¯H1,,HKHk0.01ale sto różnych testów, w których wartość p wynosi , jest znacznie bardziej prawdopodobne, że „najlepsza hipoteza” (najlepsza ma lepsze konotacje niż prawda) faktycznie pochodzi z grupy „prawie znaczących” wyników.0.1

Najważniejszą kwestią do podkreślenia jest to, że hipoteza nigdy nie może istnieć w oderwaniu od alternatyw. Ponieważ po określeniu teorii / modeli , zawsze możesz dodać nową hipotezę W efekcie tego rodzaju hipoteza jest zasadniczo tym, co rozwija naukę - ktoś ma nowy pomysł / wyjaśnienie jakiegoś efektu, a następnie testuje tę nową teorię pod kątem obecnego zestawu alternatyw . Jego vs a nie tylko vs . Wersja uproszczona ma zastosowanie tylko wtedy, gdy istnieje bardzo silnie wspierana hipoteza wH K + 1 = Coś jeszcze nie pomyślano o H K + 1 H 1 , , H K H 0 H A H 1 , , H KK

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK- tj. spośród wszystkich pomysłów i wyjaśnień, które obecnie posiadamy, wyróżnia się jedna dominująca teoria. Z pewnością nie jest to prawdą w przypadku większości dziedzin nauk społecznych / politycznych, ekonomii i psychologii.
prawdopodobieństwo prawdopodobieństwa
źródło