Prawdopodobieństwo, że hipoteza zerowa jest prawdziwa

14

To może być częste pytanie, ale nigdy nie znalazłem satysfakcjonującej odpowiedzi.

Jak określić prawdopodobieństwo, że hipoteza zerowa jest prawdziwa (lub fałszywa)?

Powiedzmy, że dajesz uczniom dwie różne wersje testu i chcesz sprawdzić, czy wersje były równoważne. Wykonujesz test t, który daje wartość p wynoszącą 0,02. Co za niezła wartość p! To musi oznaczać, że jest mało prawdopodobne, aby testy były równoważne, prawda? Nie. Niestety wydaje się, że P (wyniki | null) nie mówi ci P (null | wyniki). Normalną rzeczą jest odrzucenie hipotezy zerowej, gdy napotkamy niską wartość p, ale skąd wiemy, że nie odrzucamy hipotezy zerowej, która jest bardzo prawdopodobna? Aby dać głupi przykład, mogę zaprojektować test na ebolę z fałszywie dodatnim współczynnikiem 0,02: włóż 50 kulek do wiadra i napisz „ebola” na jednym. Jeśli przetestuję kogoś z tym i wybiorą piłkę „ebola”, wartość p (P (wybranie piłki | nie ma eboli)) wynosi 0,02,

Rzeczy, które do tej pory rozważałem:

  1. Zakładając, że P (null | wyniki) ~ = P (wyniki | null) - w przypadku niektórych ważnych aplikacji jest to oczywiście fałsz.
  2. Zaakceptuj lub odrzuć hipotezę, nie znając P (null | wyniki) - Dlaczego je akceptujemy lub odrzucamy? Czy nie chodzi o to, że odrzucamy to, co uważamy PRAWDOPODOBNIE za fałszywe i akceptujemy to, co PRAWDOPRAWNIE jest prawdą?
  3. Użyj twierdzenia Bayesa - ale jak zdobyć swoje priory? Czy nie kończysz w tym samym miejscu, próbując ustalić je eksperymentalnie? A wybór ich z góry wydaje się bardzo arbitralny.
  4. Znalazłem bardzo podobne pytanie tutaj: stats.stackexchange.com/questions/231580/. Jedna odpowiedź tutaj wydaje się zasadniczo mówić, że nie ma sensu pytać o prawdopodobieństwo, że hipoteza zerowa jest prawdziwa, ponieważ jest to pytanie bayesowskie. Może jestem w sercu Bayesianinem, ale nie wyobrażam sobie, żeby nie zadawać tego pytania. W rzeczywistości wydaje się, że najczęstszym nieporozumieniem dla wartości p jest to, że są one prawdopodobieństwem prawdziwej hipotezy zerowej. Jeśli naprawdę nie możesz zadać tego pytania jako częsty, to moje główne pytanie brzmi # 3: jak zdobyć swoje priory bez utknięcia w pętli?

Edycja: Dziękujemy za wszystkie przemyślane odpowiedzi. Chcę poruszyć kilka typowych tematów.

  1. Definicja prawdopodobieństwa: Jestem pewien, że jest na ten temat dużo literatury, ale moja naiwna koncepcja przypomina coś w rodzaju „przekonania, że ​​doskonale racjonalna istota dostarczyłaby informacji” lub „kursów bukmacherskich, które zmaksymalizowałyby zysk, gdyby sytuacja zostało powtórzone i nieznane mogły się różnić ”.
  2. Czy możemy kiedykolwiek poznać P (H0 | wyniki)? Z pewnością wydaje się to trudne pytanie. Uważam jednak, że każde prawdopodobieństwo jest teoretycznie do poznania, ponieważ prawdopodobieństwo zawsze zależy od podanych informacji. Każde zdarzenie albo się wydarzy, albo nie, więc prawdopodobieństwo nie istnieje przy pełnej informacji. Istnieje tylko wtedy, gdy nie ma wystarczających informacji, więc powinno być możliwe do poznania. Na przykład, jeśli powiedzą mi, że ktoś ma monetę i zapytają o prawdopodobieństwo głów, powiedziałbym, że 50%. Może się zdarzyć, że moneta waży 70% w stosunku do głów, ale nie otrzymałem tej informacji, więc prawdopodobieństwo MASZ 50% dla informacji, które miałem, podobnie jak w przypadku lądowania na ogonie, prawdopodobieństwo BYŁO 70% głów, kiedy się tego nauczyłem. Ponieważ prawdopodobieństwo zawsze zależy od zestawu (niewystarczających) danych,
    Edycja: „Zawsze” może być trochę za mocne. Mogą istnieć pytania filozoficzne, dla których nie możemy ustalić prawdopodobieństwa. Mimo to, w rzeczywistych sytuacjach, chociaż „prawie nigdy” nie możemy mieć absolutnej pewności, „prawie zawsze” powinna być najlepsza ocena.
Kalev Maricq
źródło
1
Jeśli twoja „hipoteza zerowa” jest podobna do , to znaczy, że pewna różnica wynosi zero, to odrzucenie jej oznacza, że ​​znalazłeś wystarczająco silny dowód, że H A : θ = 0 . Zamiast tego możesz zastosować hipotezę zerową, taką jak H 0 : | θ | Δ , to znaczy, że pewna różnica jest co najmniej tak duża jak Δ (gdzie Δ jest tym, co badacz uważa za najmniejszą różnicę, na której im zależy), a odrzucenie oznacza, że ​​znalazłeś H A : | θ | <H.0:θ=0H.ZA:θ=0H.0:|θ|ΔΔΔ (tj. - Δ < θ <H.ZA:|θ|<Δ ). Zobacz testy równoważnościstats.stackexchange.com/tags/tost/info-Δ<θ<Δ
Alexis
Moc eksperymentu (i testu statystycznego analizującego wyniki eksperymentu) to prawdopodobieństwo, że gdyby wystąpił efekt o danym rozmiarze lub większym, eksperyment wykryłby go przy danym progu istotności. Statisticsdonewrong.com/power.html
Bennett Brown
Twój przykład monet jest dobry. Pokazuje, że nigdy nie poznasz P (H0 | wyniki), jeśli znasz tylko wyniki i nie poczynisz żadnych dalszych założeń . Czy znasz prawdopodobieństwo głów w danym rzucie „zakładając” pewną uczciwość monety? Tak. (ale jest to hipotetyczne, biorąc pod uwagę założenia, i nigdy nie dowiesz się, czy twoje założenia są prawdziwe) Czy znasz prawdopodobieństwo głów w danym rzucie, znając wiele wcześniejszych wyników. Nie! i nie ma znaczenia, jak dużą liczbę poprzednich wyników znasz. Nie możesz dokładnie poznać prawdopodobieństwa głów w następnym rzucie.
Sextus Empiricus,

Odpowiedzi:

13

Z pewnością zidentyfikowałeś ważny problem, a bayesianizm jest jedną z prób jego rozwiązania. Jeśli chcesz, możesz wybrać nieinformacyjny przeor. Pozwolę innym wypełnić więcej o podejściu Bayesa.

Jednak wiesz , w zdecydowanej większości przypadkówwartość zerowa jest fałszywa w populacji, po prostu nie wiesz, jak duży jest ten efekt. Na przykład, jeśli wysyłasz absurdalną hipotezę - na przykład, że waga osoby jest związana z tym, czy jej SSN jest nieparzysty, czy nawet - i jakoś uda ci się uzyskać dokładne informacje z całej populacji, te dwa środki nie będą dokładnie równe. Będą (prawdopodobnie) różnić się nieznacznie, ale nie będą dokładnie pasować. „Jeśli pójdziesz tą drogą, zaakcentujesz wartości p i testy istotności i poświęcisz więcej czasu na oszacowanie wielkości efektu i jego dokładności. Tak więc, jeśli masz bardzo dużą próbkę, może się okazać, że ludzie z nieparzystym SSN ważą 0,001 funta więcej niż ludzie z parzystym SSN, i że błąd standardowy dla tego oszacowania wynosi 0,000001 funta, więc p <0,05, ale nikogo to nie obchodzi.

Peter Flom - Przywróć Monikę
źródło
1
n
1
Dobra uwaga na temat wielkości efektu. Czy istnieje analogia do sytuacji takich jak badanie choroby, gdzie pytanie ma charakter logiczny?
Kalev Maricq
1
FWIW, jestem całkowicie gotów uwierzyć, że nie ma związku między wagą osoby a tym, czy jej SSN jest nieparzysty, czy nawet parzysty. W badaniu obserwacyjnym zmienne te zostaną skorelowane z niektórymi innymi zmiennymi itp., Tak że ostatecznie istnieje marginalna asocjacja różna od 0. Myślę, że słusznym punktem jest to, że w przypadku większości rzeczy, które naukowcy poświęcają swój czas na badanie, istnieje jakiś dobry powód, aby podejrzewać, że istnieje rzeczywisty efekt inny niż zero.
gung - Przywróć Monikę
1
@ Gung możesz wierzyć w co tylko chcesz, ale zdecydowanie istnieje niezerowa zależność między wagą a SSN. Wiemy cokolwiek więcej na temat związku poza jego istnieniem i że prawdopodobnie jest on niewielki.
emory
1
Wiem, że waga jest zmienną ciągłą. Chociaż możemy to zapisać jako liczbę całkowitą kilogramów. Twój komentarz dotyczył badania obserwacyjnego (wyciąganie wniosków na temat populacji na podstawie próby). Ponieważ moje badanie jest finansowane z hipotetycznych dolarów, jest to badanie populacyjne z wykorzystaniem nieskończonych skal precyzji - nie ma potrzeby wnioskowania statystycznego.
emory
3

Aby odpowiedzieć na to pytanie, musisz zdefiniować prawdopodobieństwo. Wynika to z faktu, że hipoteza zerowa jest albo prawdziwa (z wyjątkiem tego, że prawie nigdy nie dzieje się, gdy weźmie się pod uwagę hipotezę punktową zerową), albo fałszywa. Jedną z definicji jest to, że moje prawdopodobieństwo opisuje moje osobiste przekonanie o tym, jak prawdopodobne jest, że moje dane wynikają z tej hipotezy, w porównaniu do tego, jak prawdopodobne jest, że moje dane wynikają z innych hipotez, które rozważam. Jeśli zaczniesz od tych ram, twój przeor jest jedynie przekonaniem opartym na wszystkich twoich wcześniejszych informacjach, ale z wyłączeniem dostępnych danych.

jaradniemi
źródło
Słuszna uwaga. Myślę, że moje wyobrażenie o prawdopodobieństwie przypomina coś w rodzaju „całkowicie racjonalnej wiary” zamiast mojej osobistej. Zredagowałem moje pytanie, aby odnieść się do twoich punktów.
Kalev Maricq
2

Kluczową ideą jest to, że luźno mówiąc, możesz empirycznie wykazać, że coś jest fałszywe (wystarczy podać kontrprzykład), ale nie możesz pokazać, że coś jest zdecydowanie prawdziwe (musisz przetestować „wszystko”, aby pokazać, że nie ma kontrprzykładów).

Falsyfikowalność jest podstawą metody naukowej: zakładasz, że teoria jest poprawna, i porównujesz jej przewidywania z tym, co obserwujesz w świecie rzeczywistym (np. Teorię grawitacji Netwon uważano za „prawdziwą”, dopóki nie okazało się, że tak się stało nie działają zbyt dobrze w ekstremalnych okolicznościach).

To samo dzieje się w testowaniu hipotez: gdy P (wyniki | null) jest niskie, dane są sprzeczne z teorią (lub miałeś pecha), więc sensowne jest odrzucenie hipotezy zerowej. W rzeczywistości załóżmy, że null jest prawdą, a następnie P (null) = P (null | results) = 1, więc jedynym sposobem, że P (wyniki | null) jest niski, to P (wyniki) jest niski (pech).

Z drugiej strony, gdy P (wyniki | null) jest wysokie, kto wie. Może null jest fałszem, ale P (wynik) jest wysoki, w takim przypadku nie można tak naprawdę nic zrobić, oprócz zaprojektowania lepszego eksperymentu.

Powtórzę: możesz tylko wykazać, że hipoteza zerowa jest (prawdopodobnie) fałszywa. Powiedziałbym więc, że odpowiedź to połowa twojego drugiego punktu: nie musisz znać P (null | wyniki), gdy P (wyniki | null) jest niski, aby odrzucić null, ale nie możesz powiedzieć, że null jest prawdą, to P (wyniki | null) jest wysoki.

Dlatego też odtwarzalność jest bardzo ważna: podejrzanie byłoby mieć pech pięć razy na pięć.

Czarny niedźwiedź
źródło
H.0:H.zaltmirnzatjavmi:
Zgadzam się z Martijnem. Jeśli możesz mi powiedzieć, jak określić prawdopodobieństwo, że hipoteza zerowa jest fałszywa, uważam, że to pozytywna odpowiedź na moje pytanie.
Kalev Maricq
μ1000P.(μ1000=3,50) jest małe nawet dla jasnych kości. Wartości p są konstruowane inaczej niż P (wynik | null), a dokładniej w celu zdefiniowania błędu typu I, opisując „wynik” jako „wynik, przy którym odrzucamy”. W ten sposób mamy błąd typu I jako P (null odrzucone | null true) = P (wynik odrzucenia | null). Wyobraź sobie więc, że wartość null jest prawdziwa (hipotetycznie), a następnie mamy prawdopodobieństwo P (wynik odrzucenia | null) do popełnienia błędu typu I.
Sextus Empiricus
2

-------------------------------------------------- ---------------------

(edytuj: Myślę, że przydałoby się umieścić wersję mojego komentarza na to pytanie na górze tej odpowiedzi, ponieważ jest ona znacznie krótsza)

Niesymetryczne obliczenie p (a | b) występuje, gdy jest postrzegane jako związek przyczynowy, taki jak p (wynik | hipoteza). Obliczenia te nie działają w obu kierunkach: hipoteza powoduje rozkład możliwych wyników, ale wynik nie powoduje rozkładu hipotez.

P (wynik | hipoteza) jest teoretyczny wartość oparta na hipotezie związku przyczynowego -> wynik.

Jeśli p (a | b) wyraża korelację lub obserwowaną częstotliwość (niekoniecznie związek przyczynowy), wówczas staje się symetryczny. Na przykład, jeśli zanotujemy liczbę meczów, które drużyny sportowe wygrywają / przegrywają, i liczbę gier, w których drużyna sportowa osiąga wyniki mniejsze lub równe / więcej niż 2 gole w tabeli awaryjnej. Zatem P (wygrana | wynik> 2) i P (wynik> 2 | wygrana) są podobnymi eksperymentalnymi / obserwacyjnymi (nie teoretycznymi) obiektami.

-------------------------------------------------- -------------------

Bardzo uproszczone

Wyrażenie P (wynik | hipoteza) wydaje się tak proste, że łatwo można pomyśleć, że można po prostu odwrócić terminy. Jednak „wynik” jest zmienną stochastyczną o rozkładzie prawdopodobieństwa (biorąc pod uwagę hipotezę). „Hipoteza” nie jest (zazwyczaj) zmienną stochastyczną. Jeśli zrobimy „hipotezę” zmienną stochastyczną, oznacza to rozkład prawdopodobieństwa różnych możliwych hipotez, w taki sam sposób, jak mamy rozkład prawdopodobieństwa różnych wyników. (ale wyniki nie dają nam takiego rozkładu prawdopodobieństwa hipotezy, a jedynie zmieniają rozkład za pomocą twierdzenia Bayesa)


Przykład

Załóżmy, że masz wazon z czerwonymi / niebieskimi kulkami w proporcji 50/50, z którego pobierasz 10 kulek. Następnie możesz łatwo wyrazić coś takiego jak P (wynik | eksperyment wazowy), ale nie ma sensu wyrażać P (eksperyment wazonowy | wynik). Wynik nie jest (sam w sobie) rozkładem prawdopodobieństwa różnych możliwych eksperymentów wazonowych.

Jeśli masz wiele możliwych typów eksperymentów wazonowych, w takim przypadku można użyć wyrażenia typu P (rodzaj eksperymentu wazonowego) i użyć reguły Bayesa, aby uzyskać wynik P (typ eksperymentu wazonowego | wynik), ponieważ teraz typ eksperyment wazowy jest zmienną stochastyczną. (uwaga: dokładniej jest to P (rodzaj eksperymentu wazonowego | wynik i rozkład rodzaju eksperymentu wazonowego))

Mimo to ten P (typ eksperymentu wazonowego | wynik) wymaga (meta) hipotezy o danym początkowym rozkładzie P (typ eksperymentu wazonowego).


Intuicja

może poniższe wyrażenie pomaga zrozumieć jeden kierunek

X) Możemy wyrazić prawdopodobieństwo X na podstawie hipotezy o X.

a zatem

1) Możemy wyrazić prawdopodobieństwo wyników przy założeniu hipotezy o wynikach.

i

2) Możemy wyrazić prawdopodobieństwo hipotezy na podstawie (meta) hipotezy o tych hipotezach.

Jest to reguła Bayesa, która pozwala nam wyrazić odwrotność (1), ale do tego potrzebujemy (2), hipoteza musi być zmienną stochastyczną.


Odrzucenie jako rozwiązanie

Dlatego nie możemy uzyskać absolutnego prawdopodobieństwa dla hipotezy, biorąc pod uwagę wyniki. To fakt z życia, próba walki z tym faktem wydaje się być przyczyną nie znalezienia satysfakcjonującej odpowiedzi. Rozwiązaniem dla znalezienia satysfakcjonującej odpowiedzi jest: zaakceptowanie, że nie można uzyskać (absolutnego) prawdopodobieństwa dla hipotezy.


Częstokroć

W ten sam sposób, w jaki nie jesteśmy w stanie zaakceptować hipotezy, nie powinniśmy (automatycznie) odrzucać hipotezy, gdy P (wynik | hipoteza) jest bliskie zeru. Oznacza to tylko, że istnieją dowody potwierdzające zmianę naszych przekonań i zależy również od P (wynik) i P (hipoteza), w jaki sposób powinniśmy wyrazić nasze nowe przekonania.

Gdy częstokroć mają jakiś plan odrzucenia, to w porządku. To, co wyrażają, nie jest mokre, czy hipoteza jest prawdą, czy fałszem, czy też prawdopodobieństwo takich przypadków. Nie są w stanie tego zrobić (bez priorytetów). Zamiast tego wyrażają coś na temat wskaźnika niepowodzenia (pewności) ich metody (przy założeniu, że pewne założenia są prawdziwe).


Wszechwiedzący

Jednym ze sposobów wyjścia z tego wszystkiego jest wyeliminowanie pojęcia prawdopodobieństwa. Jeśli obserwujesz całą populację 100 kulek w wazonie, możesz wyrazić pewne stwierdzenia na temat hipotezy. Jeśli więc staniesz się wszechwiedzący, a pojęcie prawdopodobieństwa jest nieistotne, możesz stwierdzić, czy hipoteza jest prawdziwa czy nie (chociaż prawdopodobieństwo również nie jest równaniem)

Sextus Empiricus
źródło
Twój przykład wazonu ma sens. Jednak w prawdziwym życiu prawie nigdy nie wiemy, ile kulek każdego koloru znajduje się w wazonie. Zawsze mam pytanie w rodzaju „Czy jest więcej czerwonych marmurów niż niebieskich”, a moje dane są takie, że wyciągnąłem 4 czerwone kulki i 1 niebieski marmur z wazonu. Teraz mogę przyjąć takie założenia, że ​​„prawdopodobnie jest około 100 kulek, a każdy marmur jest albo czerwony, albo niebieski z 50% prawdopodobieństwem”, ale w rzeczywistości często brakuje mi sposobu, w jaki sposób nie arbitralnie i niekołowo uzyskać te przeory.
Kalev Maricq
To bardziej pytanie epistemologiczne niż problem prawdopodobieństwa. Wyrażenie takie jak P (wynik | hipoteza) jest w podobny sposób „fałszywe”, to znaczy jest wyrażeniem hipotetycznym. Możesz wyrazić prawdopodobieństwo wyniku, biorąc pod uwagę pewne hipotetyczne przekonanie o „rzeczywistości”. Podobnie jak prawdopodobieństwo wyniku eksperymentu jest hipotetyczne, wyrażenie prawdopodobieństwa jakiejś teorii (z obserwacją wyniku lub bez), wymaga pewnej hipotetycznej wiary w „rzeczywistość”. Tak, priory są nieco arbitralne. Ale taka jest hipoteza.
Sextus Empiricus
Mówiąc o prawdopodobieństwach. Zauważ, że reguła Bayesa dotyczy około dwóch zmiennych stochastycznych: P (a | b) P (b) = P (b | a) P (a). Możesz powiązać prawdopodobieństwa warunkowe. Jeśli jeden z tych P (b | a) jest związkiem przyczynowym , tak jak w „teorii prowadzi do rozkładu wyników”, można go dokładnie obliczyć. Taki przypadek wynika tylko z przyczynowości (1-kierunkowej). Hipoteza pozwala wiedzieć (hipotetycznie) wszystko, czego potrzebujesz, kulki w wazonie. Odwrotnie, nie działa. Wynik eksperymentu 4 czerwone kontra 1 niebieski, nie powoduje rozkładu prawdopodobieństwa marmurów w wazonie.
Sextus Empiricus