Która jest hipotezą zerową? Konflikt między teorią nauki, logiką i statystyką?

20

Mam trudności ze zrozumieniem logiki leżącej u podstaw hipotezy zerowej . W tej odpowiedzi jest oczywiście ogólnie przyjęte twierdzenie, że hipoteza zerowa jest hipotezą, że nie będzie żadnego efektu, wszystko pozostanie takie samo, tzn. Nic nowego pod słońcem, że tak powiem.

Alternatywną hipotezą jest zatem to, co próbujesz udowodnić, że np. Nowy lek spełnia obietnice.

Teraz, wychodząc z teorii nauki i ogólnej logiki, wiemy, że możemy tylko fałszować twierdzenia, nie możemy czegoś udowodnić (żadna liczba białych łabędzi nie może udowodnić, że wszystkie łabędzie są białe, ale jeden czarny łabędź może to obalić). Dlatego staramy się obalić hipotezę zerową, która nie jest równoważna z udowodnieniem alternatywnej hipotezy - i tu zaczyna się mój sceptycyzm - dam prosty przykład:

Powiedzmy, że chcę się dowiedzieć, jakie zwierzę kryje się za zasłoną. Niestety nie mogę bezpośrednio obserwować zwierzęcia, ale mam test, który daje mi liczbę nóg tego zwierzęcia. Teraz mam następujące logiczne rozumowanie:

Jeśli zwierzę jest psem, będzie miało 4 nogi.

Jeśli przeprowadzę test i stwierdzę, że ma on 4 nogi, nie jest to dowód na to, że jest to pies (może to być koń, nosorożec lub jakiekolwiek inne zwierzę o czterech nogach). Ale jeśli dowiem się, że ma nie 4 nogi to jest definitywna dowód, że można nie mieć psa (zakładając zdrowego zwierzęcia).

Przekładając się na skuteczność narkotyków Chcę dowiedzieć się, czy lek za kurtyną jest skuteczny. Jedyne, co dostanę, to liczba, która daje mi efekt. Jeśli efekt jest pozytywny, nic nie zostanie udowodnione (4 nogi). Jeśli nie ma efektu, obalam skuteczność leku.

Mówiąc to wszystko, myślę - wbrew powszechnej mądrości - jedyną ważną hipotezą zerową musi być

Lek jest skuteczny (tzn .: jeśli lek jest skuteczny, zobaczysz efekt).

ponieważ to jedyna rzecz, którą mogę obalić - do następnej rundy, w której staram się być bardziej konkretny i tak dalej. Tak więc hipoteza zerowa określa efekt, a hipoteza alternatywna jest domyślna ( brak efektu ).

Dlaczego wydaje się, że testy statystyczne mają to wstecz?

PS : Nie można nawet zanegować powyższej hipotezy, aby uzyskać prawidłową hipotezę równoważną, więc nie można powiedzieć „lek nie jest skuteczny” jako hipoteza zerowa, ponieważ jedyną logicznie równoważną postacią byłoby „jeśli nie zobaczysz żadnego efektu, lek nie będzie skuteczny ”, który nigdzie Cię nie prowadzi, ponieważ teraz wniosek jest tym, czego chcesz się dowiedzieć!

PPS : Tylko dla wyjaśnienia po przeczytaniu dotychczasowych odpowiedzi: Jeśli zaakceptujesz teorię naukową, że możesz tylko fałszować stwierdzenia, ale ich nie udowodnić, jedyną logicznie spójną rzeczą jest wybranie hipotezy zerowej jako nowej teorii - którą następnie można sfałszowany. Ponieważ jeśli sfałszujesz status quo, pozostaniesz z pustymi rękami (status quo jest obalony, ale nowa teoria daleka od udowodnienia!). A jeśli nie uda ci się go sfałszować, nie znajdziesz się w lepszej sytuacji.

vonjd
źródło
3
Wskazówka: „Lek jest skuteczny” nie został wystarczająco określony ilościowo, aby stanowić oświadczenie naukowe lub statystyczne. Jak zamierzasz zrobić to ilościowo?
whuber
1
@ whuber: To jest najmniejszy z moich problemów: powiedz tylko, że np. utrata krwi zmniejsza się o 10%. Twierdzę, że musi to być hipoteza zerowa - hipotezą alternatywną jest „Nic się nie dzieje”.
vonjd
9
Przeciwnie, jest to sedno pytania. W statystyce jest całkiem dobrze, aby przyjąć wartość zerową, która mówi, że efekt wynosi -10%. Twój eksperyment będzie mógł go odrzucić, jeśli dostarczy wystarczająco mocnych dowodów, że jest inaczej. Należy jednak pamiętać, że (z wyjątkiem nadzwyczajnych machin obliczeniowych i koncepcyjnych) można przetestować tylko jedną taką hipotezę na eksperyment. Zauważ też, że to rzadki eksperymentator tak dokładnie wie, jaki będzie rozmiar efektu (ale nadal odczuwa potrzebę jego przetestowania!).
whuber
3
Cóż, w praktyce z próbami z lekami zero jest zwykle interpretowane jako „lek nie jest bardziej skuteczny niż obecne leczenie”, a alternatywą jest „lek jest bardziej skuteczny niż obecne leczenie”. Nawiasem mówiąc, ma to wbudowany rozmiar efektu. Dzięki tej formule dowody na skuteczność leku mogą odrzucić wartość zerową. Po wymianie hipotez dowód na skuteczność zniechęca do odrzucenia twierdzenia, że ​​lek jest dobry. W pierwszym przypadku ciężar dowodu jest znacznie bardziej rygorystyczny.
whuber
1
@vonjd: Mówisz: „jeśli sfałszujesz status quo, pozostaniesz z pustymi rękami”. Źle. Gdybyśmy dokonywali oceny jakościowej „pies” / „nie pies”, prawdą jest, że dostarczenie dowodów „nie pies” nie jest szczególnie mocnym dowodem na „pies”. Jest to jednak wartość kwantyfikacji rzeczy. Jeśli dostarczę dowód „nie 0”, to daje dobry dowód na wartość będącą wartością inną niż 0. Jeśli obawiasz się, że zapewnia równe dowody dobrego i złego efektu, użyj testu jednostronnego.
russellpierce

Odpowiedzi:

12

W statystykach istnieją testy równoważności, a także bardziej powszechny test Null i decydują, czy wystarczające dowody przeciwko niemu. Test równoważności obrócił to na głowie i wykazał, że efekty są różne jak zero i ustalamy, czy istnieją wystarczające dowody przeciwko temu zeru.

Nie mam jasności co do twojego przykładu narkotyków. Jeśli odpowiedź jest wartością / wskaźnikiem efektu, wówczas efekt 0 wskazywałby na nieskuteczny. Można ustawić to jako zero i ocenić dowody przeciwko temu. Jeśli efekt jest wystarczająco różny od zera, stwierdzilibyśmy, że hipoteza braku skuteczności jest niespójna z danymi. Dwustronny test liczyłby wystarczająco ujemne wartości efektu jako dowód przeciwko zeru. Test jednostronny, efekt jest dodatni i wystarczająco różny od zera, może być ciekawszym testem.

Jeśli chcesz sprawdzić, czy efekt wynosi 0, wówczas musielibyśmy to odwrócić i użyć testu równoważności, w którym H0 to efekt nie jest równy zero, a alternatywą jest to, że H1 = efekt = 0. To oceniłby dowody pod kątem idei, że efekt był inny niż 0

Przywróć Monikę - G. Simpson
źródło
9
Częściową kwestią jest to, że IIRC jest powodem, dla którego wybraliśmy brak efektu jako Null, ponieważ parametr tego efektu jest znany 0. Jeśli chcesz to odwrócić i mieć jakiś niezerowy efekt jako Null, wtedy musielibyśmy wiedzieć z góry, jaka była wartość tego parametru dla całej populacji, i gdybyśmy znali wartość parametru dla populacji nie byłoby sensu testowanie.
Przywróć Monikę - G. Simpson
Wygląda na to, że będziemy mieli ten sam problem z alternatywną hipotezą (tam też nie znamy parametru). Więc moje pytanie brzmi: dlaczego nie zamienić obu? Wydaje się to logicznie bardziej spójne.
vonjd
Pozwolę innym komentować testy równoważności. Nie są tym samym, co zamiana hipotez w standardowych testach, ale nie znam się na tych pomysłach. Nie sądzę, że masz rację, że testy równoważności cierpią z powodu problemu, o którym wspominam w komentarzach. Są one sformułowane z bardzo odmiennego teoretycznego punktu widzenia.
Przywróć Monikę - G. Simpson
5

Myślę, że jest to kolejny przypadek, w którym statystyki często nie są w stanie udzielić bezpośredniej odpowiedzi na pytanie, które naprawdę chcesz zadać, a zatem odpowiada na (nie tak) subtelnie inne pytanie i łatwo błędnie zinterpretować to jako bezpośrednią odpowiedź na pytanie, które naprawdę chciałeś zadać.

To, co naprawdę chcielibyśmy zapytać, to jakie jest prawdopodobieństwo, że hipoteza alternatywna jest prawdziwa (a może bardziej prawdopodobne, że jest ona prawdziwa niż hipoteza zerowa). Jednak analiza częstokroć zasadniczo nie może odpowiedzieć na to pytanie, ponieważ dla częstokroć prawdopodobieństwo jest częstotliwością długofalową, aw tym przypadku interesuje nas prawda konkretnej hipotezy, która nie ma częstotliwości długoterminowej - jest to albo prawda czy nie. Z drugiej strony Bayesian może bezpośrednio odpowiedzieć na to pytanie, ponieważ w przypadku Bayesa prawdopodobieństwo jest miarą prawdopodobieństwa pewnej propozycji, więc w analizie Bayesa jest całkowicie uzasadnione przypisanie prawdopodobieństwa do prawdziwości konkretnej hipotezy.

Sposób, w jaki częstokroć radzą sobie z poszczególnymi zdarzeniami, polega na traktowaniu ich jako próbki z pewnej (prawdopodobnie fikcyjnej) populacji i wypowiadaniu się na temat tej populacji zamiast oświadczenia na temat konkretnej próby. Na przykład, jeśli chcesz poznać prawdopodobieństwo, że dana moneta jest stronnicza, po zaobserwowaniu N-rzutów i obserwacji główek i ogonów, częste analizy nie są w stanie odpowiedzieć na to pytanie, jednak mogą określić proporcję monet z rozkładu obiektywne monety, które dałyby h lub więcej głów po odwróceniu N razy. Ponieważ naturalną definicją prawdopodobieństwa, której używamy w życiu codziennym, jest na ogół definicja bayesowska, a nie częsta, tak łatwo jest traktować to jako prawdopodobieństwo, że hipoteza zerowa (moneta jest bezstronna) jest prawdziwa.

Zasadniczo częste testy hipotez kryją w sobie ukryty subiektywistyczny komponent bayesowski. Test częsty może stwierdzić prawdopodobieństwo zaobserwowania statystyki co najmniej tak ekstremalnej w ramach hipotezy zerowej, jednak decyzja o odrzuceniu hipotezy zerowej z tych powodów jest całkowicie subiektywna, nie ma racjonalnego wymogu, aby to zrobić. Zasadnicze doświadczenie pokazało, że zasadniczo jesteśmy na dość solidnym gruncie, aby odrzucić zero, jeśli wartość p jest wystarczająco mała (ponownie próg jest subiektywny), więc taka jest tradycja. AFAICS nie pasuje dobrze do filozofii lub teorii nauki, jest zasadniczo heurystyką.

Nie oznacza to jednak, że jest to zła rzecz, mimo że częste testowanie hipotez stanowi przeszkodę, którą muszą pokonać nasze badania, co pomaga nam, jako naukowcom, zachować sceptycyzm i nie dać się ponieść entuzjazmowi dla naszych teorii. Tak więc, chociaż jestem sercem Bayesian, nadal regularnie używam testów hipotezy (przynajmniej dopóki recenzenci czasopism nie będą zadowoleni z alternatyw Bayesaina).

Dikran Torbacz
źródło
3

Aby dodać do odpowiedzi Gavina, kilka rzeczy:

Po pierwsze, słyszałem o tym, że twierdzenia można tylko sfałszować, ale nigdy nie udowodnić. Czy mógłbyś zamieścić link do dyskusji na ten temat, ponieważ nasze sformułowanie tutaj nie wydaje się zbyt dobrze wytrzymywać - jeśli X jest twierdzeniem, to nie (X) też jest twierdzeniem. Jeśli możliwe jest obalenie zdań, to obalenie X jest tym samym, co udowodnienie, że nie (X), a my udowodniliśmy zdanie.

test+

Lek jest skuteczny (tj: iff lek jest skuteczny widać efekt).

test+test+H0

tmist+H.0tmist+H.0

Tak więc różnica między przypadkiem psa a przypadkiem skuteczności polega na stosowności wnioskowania od dowodów do wniosku. W przypadku psa zaobserwowałeś pewne dowody, które nie sugerują silnie psa. Ale w przypadku badania klinicznego zaobserwowałeś pewne dowody, które silnie sugerują skuteczność.

ImAlsoGreg
źródło
1
Dziękuję Ci. Jeśli zaakceptujesz, że możesz tylko fałszować stwierdzenia, ale ich nie udowodnić (link w sekundę), jedyną logicznie spójną rzeczą jest wybranie hipotezy zerowej jako nowej teorii - którą następnie można sfałszować. Jeśli sfałszujesz status quo, pozostaniesz z pustymi rękami (status quo jest obalony, ale nowa teoria daleka od udowodnienia!). Teraz, jeśli chodzi o link, myślę, że dobrym punktem wyjścia byłoby: en.wikipedia.org/wiki/Falsifiable
vonjd
2
Myślę, że warto tutaj wspomnieć, że nie udowadniasz ani nie obalasz hipotezy zerowej. Podejmujesz decyzję (klasycznie), aby zachować lub odrzucić hipotezę zerową. Odrzucając hipotezę zerową, nie przeczysz jej. Wszystko, co robisz, to mówienie, że biorąc pod uwagę zaobserwowane dane, hipoteza zerowa jest mało prawdopodobna.
russellpierce
@drknexus: Czy nie zgodziłbyś się, że jest to probabilistyczny odpowiednik fałszowania w logice?
vonjd,
4
@drknexus Czy nie lepiej byłoby nie mówić „biorąc pod uwagę obserwowane dane, hipoteza zerowa jest mało prawdopodobna”, a raczej „jeśli hipoteza zerowa jest prawdziwa, to dane te są mało prawdopodobne”? Czy połączenie tych dwóch klas nie jest klasycznym błędem w testowaniu hipotez statystycznych?
Michael McGowan
1
MM: Masz rację. Mam niedbałe brzmienie.
russellpierce
3

Masz rację, że w pewnym sensie częste testowanie hipotez ma je wstecz. Nie twierdzę, że takie podejście jest błędne, ale raczej, że wyniki często nie są zaprojektowane, aby odpowiedzieć na pytania, które najbardziej interesują badacza. Jeśli chcesz techniki bardziej podobnej do metody naukowej, spróbuj wnioskowania bayesowskiego .

Zamiast mówić o „hipotezie zerowej”, którą możesz odrzucić lub nie odrzucić, z wnioskiem Bayesa zaczynasz od wcześniejszego rozkładu prawdopodobieństwa opartego na twoim zrozumieniu sytuacji. Kiedy zdobywasz nowe dowody, wnioskowanie bayesowskie zapewnia ramy dla aktualizacji twojego przekonania o wzięte pod uwagę dowody. Myślę, że jest to bardziej podobne do działania nauki.

Michael McGowan
źródło
3

Myślę, że masz tutaj fundamentalny błąd (nie to, że cały obszar testowania hipotez jest jasny!), Ale mówisz, że alternatywą jest to, co próbujemy udowodnić. Ale to nie w porządku. Próbujemy odrzucić (sfalsyfikować) wartość zerową. Jeśli otrzymane wyniki byłyby bardzo mało prawdopodobne, gdyby zerowy był prawdziwy, odrzucamy zerowy.

Teraz, jak powiedzieli inni, nie jest to zazwyczaj pytanie, które chcemy zadać: zazwyczaj nie obchodzi nas, jakie są prawdopodobieństwo wyników, jeśli wartość null jest prawdziwa, zależy nam na tym, jak prawdopodobne jest to, biorąc pod uwagę wyniki.

Peter Flom - Przywróć Monikę
źródło
3

Jeśli dobrze cię rozumiem, zgadzasz się z nieżyjącym, wspaniałym Paulem Meehlem. Widzieć

Meehl, PE (1967). Testowanie teorii w psychologii i fizyce: paradoks metodologiczny . Philosophy of Science , 34 : 103-115.

Dok
źródło
6
Czy mógłbyś trochę rozwinąć tę odpowiedź?
chl
Link nie działa :-(
vonjd
Link poprawiony.
peuhp,
2

Rozbuduję wzmiankę o Paulu Meehlu autorstwa @Doc:

1) Testowanie przeciwieństwa twojej hipotezy badawczej, ponieważ hipoteza zerowa sprawia, że ​​możesz więc jedynie potwierdzić wynik, który jest argumentem „formalnie nieważnym”. Wnioski niekoniecznie wynikają z założenia.

If Bill Gates owns Fort Knox, then he is rich.
Bill Gates is rich.
Therefore, Bill Gates owns Fort Knox.

http://rationalwiki.org/wiki/Affirming_the_consequent

Jeśli teoria brzmi: „Ten lek poprawi wyzdrowienie” i zaobserwujesz poprawę wyzdrowienia, nie oznacza to, że możesz powiedzieć, że twoja teoria jest prawdziwa. Poprawione odzyskiwanie mogło nastąpić z innego powodu. Żadne dwie grupy pacjentów lub zwierząt nie będą dokładnie takie same na początku i będą się zmieniać w miarę upływu czasu podczas badania. Jest to większy problem dla badań obserwacyjnych niż eksperymentalnych, ponieważ randomizacja „broni” przed poważnymi zaburzeniami równowagi nieznanych czynników zakłócających na początku. Jednak randomizacja tak naprawdę nie rozwiązuje problemu. Jeśli pomyłki są nieznane, nie jesteśmy w stanie określić, w jakim stopniu „obrona przed losowaniem” była skuteczna.

Zobacz także tabelę 14.1 i omówienie, dlaczego nie można samodzielnie przetestować żadnej teorii (zawsze towarzyszą temu czynniki pomocnicze):

Paul Meehl. „Problemem jest epistemologia, a nie statystyka: zastąpić testy istotności przedziałami ufności i obliczyć dokładność ryzykownych prognoz numerycznych” W LL Harlow, SA Mulaik i JH Steiger (red.), Co jeśli nie było żadnych testów istotności? (str. 393–425) Mahwah, NJ: Erlbaum, 1997.

2) Jeśli wprowadzony zostanie pewien rodzaj uprzedzenia (np. Nierównowaga na niektórych mylących czynnikach), nie wiemy, w jakim kierunku będzie to ukierunkowanie lub jak silne jest. Można przypuszczać, że istnieje 50% szansy na popchnięcie grupy terapeutycznej w kierunku wyższego powrotu do zdrowia. Ponieważ rozmiary próbek stają się duże, istnieje również 50% szans, że test istotności wykryje tę różnicę i zinterpretujesz dane jako potwierdzenie swojej teorii.

Ta sytuacja jest zupełnie inna niż w przypadku hipotezy zerowej, że „ten lek poprawi regenerację o x%”. W tym przypadku obecność jakiegokolwiek uprzedzenia (które powiedziałbym, że zawsze istnieje w porównaniu grup zwierząt i ludzi) zwiększa prawdopodobieństwo odrzucenia twojej teorii.

Pomyśl o „przestrzeni” (Meehl nazywa ją „Spielraum”) możliwych wyników ograniczonych przez najbardziej ekstremalne możliwe pomiary. Być może odzysk może wynosić 0-100% i można zmierzyć z rozdzielczością 1%. W typowym przypadku testowania znaczenia przestrzeń zgodna z twoją teorią będzie stanowić 99% możliwych wyników, które możesz zaobserwować. W przypadku, gdy przewidujesz konkretną różnicę, przestrzeń zgodna z twoją teorią wyniesie 1% możliwych wyników.

Innym sposobem wyrażenia tego jest to, że znalezienie dowodów przeciwko zerowej hipotezie średniej1 = średnia2 nie jest poważnym testem hipotezy badawczej, że lek coś robi. Wartość null średniej1 <średnia2 jest lepsza, ale wciąż niezbyt dobra.

Zobacz rysunek 3 i 4 tutaj: (1990). Ocena i poprawianie teorii: Strategia obrony Lakatosian oraz dwie zasady, które uzasadniają jej użycie . Zapytanie psychologiczne, 1, 108-141, 173-180

Kolba
źródło
0

Czy nie wszystkie statystyki opierają się na założeniu, że w świecie przyrody nic nie jest pewne (w odróżnieniu od sztucznego świata gier i gier). Innymi słowy, jedynym sposobem na zbliżenie się do zrozumienia tego jest pomiar prawdopodobieństwa, że ​​jedna rzecz koreluje z drugą, a waha się ona między 0 a 1, ale może wynosić tylko 1, jeśli moglibyśmy przetestować hipotezę nieskończoną liczbę razy w nieskończona liczba różnych okoliczności, co oczywiście jest niemożliwe. I nigdy nie możemy wiedzieć, że było to zero z tego samego powodu. Jest to bardziej niezawodne podejście do zrozumienia rzeczywistości, niż matematyka, która zajmuje się absolutami i opiera się głównie na równaniach, które, jak wiemy, są idealistyczne, ponieważ jeśli dosłownie strona LH równania naprawdę = strona RH, obie strony można odwrócić i niczego się nie nauczymy. Ściśle mówiąc, dotyczy to tylko świata statycznego, a nie „naturalnego”, który jest wewnętrznie burzliwy. Stąd hipoteza zerowa powinna nawet gwarantować matematykę - ilekroć jest używana do zrozumienia samej natury.

John Faupel
źródło
0

Myślę, że problem tkwi w słowie „prawda”. Rzeczywistość świata przyrody jest z natury niepoznawalna, ponieważ jest nieskończenie złożona i nieskończenie zmienna w czasie, więc „prawda” zastosowana do natury jest zawsze warunkowa. Jedyne, co możemy zrobić, to spróbować znaleźć poziomy prawdopodobnej zgodności między zmiennymi za pomocą powtarzanego eksperymentu. Próbując zrozumieć rzeczywistość, szukamy w niej czegoś, co wydaje się porządkiem, i budujemy w jej umyśle świadomie koncepcyjnie modele, aby pomóc nam w podejmowaniu rozsądnych decyzji, ALE jest to bardzo trafiony przypadek, ponieważ zawsze istnieje niespodziewany. Hipoteza zerowa jest jedynym wiarygodnym punktem wyjścia w naszej próbie zrozumienia rzeczywistości.

John Faupel
źródło
1
Myślę, że powinieneś połączyć swoje dwie odpowiedzi.
vonjd
-1

Musimy wybrać hipotezę zerową, którą chcemy odrzucić.

Ponieważ w naszym scenariuszu testowania hipotez istnieje region krytyczny, jeśli region objęty hipotezą znajduje się w regionie krytycznym, odrzucamy hipotezę, w przeciwnym razie akceptujemy hipotezę.

Załóżmy więc, że wybieramy hipotezę zerową, tę, którą chcemy zaakceptować. A region pod hipotezą zerową nie wchodzi w obszar krytyczny, więc zaakceptujemy hipotezę zerową. Problem polega jednak na tym, że jeśli region pod hipotezą zerową znajdzie się w regionie akceptowalnym, nie oznacza to, że region pod alternatywną hipotezą nie znajdzie się w regionie akceptowalnym. A jeśli tak jest, to nasza interpretacja wyniku będzie błędna. Musimy więc przyjąć tę hipotezę jedynie jako hipotezę zerową, którą chcemy odrzucić. Jeśli jesteśmy w stanie odrzucić hipotezę zerową, oznacza to, że hipoteza alternatywna jest prawdziwa. Ale jeśli nie jesteśmy w stanie odrzucić hipotezy zerowej, oznacza to, że dowolna z dwóch hipotez może być poprawna. Być może możemy następnie podjąć kolejny test, w którym możemy przyjąć naszą alternatywną hipotezę jako hipotezę zerową, a następnie możemy spróbować go odrzucić. Jeśli jesteśmy w stanie odrzucić alternatywną hipotezę (która jest teraz hipotezą zerową), możemy powiedzieć, że nasza początkowa hipoteza zerowa była prawdziwa.

mohit khanna
źródło