Co oznacza testowanie hipotez bayesowskich w ramach teorii wnioskowania i decyzji?

15

Moje doświadczenie dotyczy głównie uczenia maszynowego i starałem się dowiedzieć, co oznacza testowanie hipotezy bayesowskiej. Nie przeszkadza mi bayesowska interpretacja prawdopodobieństwa i znam ją w kontekście probabilistycznych modeli graficznych. Jednak mylę mnie to, co oznacza słowo „hipoteza” w kontekście wnioskowania statystycznego.

Wydaje mi się, że najczęściej mylę się ze słownictwem, do którego jestem przyzwyczajony w uczeniu maszynowym, w porównaniu do tego, co zwykle stosuje się w statystykach i wnioskowaniu.

W kontekście nauki nadzorowanej normalnie myślę o hipotezie jako o funkcji predykcyjnej, która odwzorowuje przykłady na etykiety, tj. . Wydaje mi się jednak, że termin hipoteza w czytanych przeze mnie odczytach nie ma tego samego znaczenia. Pozwól mi wkleić fragment czytanych odczytów:h:XY

wprowadź opis zdjęcia tutaj

Jeśli czytasz uważnie, mówi również:

istnieje inny model obserwowanych danych ...

gdyby używali słowa model. Dla mnie słowo model przypomina mi zestaw funkcji, w których wybraliśmy konkretną funkcję predykcyjną. tj. hipoteza klasy funkcji. Na przykład może być klasą hipotez funkcji kwadratowych (wielomian stopnia 2). Wydaje mi się jednak, że używają słowa model i hipotezy jako synonimów w tym wyciągu (gdzie dla mnie są to zupełnie inne słowa).Hd2

Następnie wspomina, że ​​możemy postawić hipotezę priory (całkowicie rozsądną rzecz do zrobienia w otoczeniu bayesowskim):

pH(Hm),     m={0,1,...,M1}

możemy również scharakteryzować dane za pomocą aktualnej hipotezy:

py|H(|Hm),     m={0,1,...,M1}

i zaktualizuj nasze obecne przekonania, podając niektóre dane (i zasadę Baye'a):

pH|y(Hm|y),     m={0,1,...,M1}

Wydaje mi się jednak, że bardziej przyzwyczajam się do szacowania bayesowskiego konkretnego parametru (powiedzmy ) z klasy hipotez niż z całej klasy hipotez. Zasadniczo, ponieważ wydaje się, że te „hipotezy” nie są tymi samymi hipotezami z kontekstu uczenia maszynowego, do których jestem przyzwyczajony, wydaje mi się, że te hipotezy są bardziej podobne do określonego parametru niż do klasy hipotez.θθ

W tym momencie byłem przekonany, że „hipoteza” oznaczała to samo, co w funkcji predykcyjnej (na przykład parametryzowanej parametrem ), ale myślę, że się myliłem ...θ

Żeby moje zamieszanie było jeszcze gorsze, później te same lektury posunęły się naprzód, aby określić konkretną „hipotezę” dla każdego zaobserwowanego przykładu treningu. Pozwól mi wkleić wyciąg z tego, co mam na myśli:

wprowadź opis zdjęcia tutaj

powodem tego jest fakt, że jeśli interpretuję hipotezę jako parametr, to dla mnie nie ma sensu określać konkretnego parametru dla każdej wartości próbki, którą widzimy. W tym momencie doszedłem do wniosku, że tak naprawdę nie wiedziałem, co mają na myśli hipotezę, więc zadałem to pytanie.

Jednak nie poddałem się w pełni, zbadałem, co hipoteza oznacza w statystykach dla osób często odwiedzających i znalazłem następujący film z akademii chana . Ten film ma dla mnie wiele sensu (być może jesteś częstym!) . Wydaje się jednak, że uzyskują wiązkę danych (jak jakiś „zestaw próbek”) i na podstawie właściwości zestawu próbek decydują, czy przyjąć, czy odrzucić hipotezę zerową o danych. Jednak w kontekście bayesowskim, które czytam, wydaje mi się, że dla każdego obserwowanego wektora [punktowego] „etykietują go” hipotezą za pomocą „testu ilorazu wiarygodności”:

wprowadź opis zdjęcia tutaj

Sposób, w jaki przypisują hipotezę do każdej próbki danych, wydaje się nawet nadzorowanym ustawieniem uczenia się, jeśli dołączamy etykietę do każdego zestawu treningowego. Nie sądzę jednak, aby robili to w tym kontekście. Co oni robią? Co to znaczy przypisać hipotezę do każdej próbki danych? Jakie jest znaczenie hipotezy? Co oznacza słowo model?

Zasadniczo, po tym długim wyjaśnieniu mojego zamieszania, czy ktoś wie, co w tym kontekście oznacza testowanie bayesowskie?


Jeśli potrzebujesz wyjaśnień lub czegokolwiek, aby poprawić moje pytanie lub aby pytanie miało sens, chętnie pomogę :)


W poszukiwaniu odpowiedzi znalazłem kilka użytecznych rzeczy związanych z testowaniem hipotez statystycznych:

Ten odnosi się do dobrego wprowadzenia do tematu, jeśli pochodzisz z CS (jak ja):

Jakie jest dobre wprowadzenie do testowania hipotez statystycznych dla informatyków?

W pewnym momencie zapytałem o „parametry domyślne” (które powinienem był zdefiniować, co miałem na myśli. Myślałem, że to standardowy termin, ale tak nie jest, więc tutaj się nim zajmę) i myślę, że naprawdę miałem na myśli to, jak określasz parametry dla każdej twojej hipotezy. Na przykład, jak zdecydować, jaka jest twoja hipoteza zerowa i jakie są jej parametry. Jest z tym związane pytanie:

Jak określić hipotezę zerową w testowaniu hipotez

Pinokio
źródło
@ Xi'an Przeczytałem następujący artykuł w Wikipedii: en.wikipedia.org/wiki/Statistic_model, czy to one rozumieją przez model i hipotezę? dzięki za cierpliwość btw :)
Pinokio
3
Waham się przed przystąpieniem do tej dyskusji, ponieważ uważam, że twoim problemem jest zrozumienie, co w zasadzie oznacza testowanie hipotez, a nie konkretnie testowanie hipotez w ramach Bayesa. Aby pomóc w tym, sugeruję zajrzeć do książki „Tryby parametrycznego wnioskowania statystycznego” autorstwa Geissera. books.google.ca/…
rocinante
@ procinante Myślę, że się z tobą zgadzam. Jestem zdecydowanie zdezorientowany ogólnie testowaniem hipotez (a szkielet bayesowski w ogóle nie pomaga). Zdecydowanie się temu przyjrzę. Dziękujemy za cierpliwość i zrozumienie, bardzo to doceniamy.
Pinokio
Nie jest to łatwe do zrozumienia, ponieważ nie jest to łatwe do zwięzłego wyrażenia. Zamiast myśleć o tym abstrakcyjnie (np. Mapy), może to pomoże, jeśli pomyślisz o tym na prostszym przykładzie.
1/2
1
2/2 Załóżmy, że masz monetę i chcesz sprawdzić, czy jest sprawiedliwa, więc odwróć ją 50 razy. Masz teraz zestaw danych, o którym chcesz wnioskować (tj. Czy monety są stronnicze, czy nie). Logicznie rzecz biorąc, jeśli moneta jest uczciwa, około połowa rzutów powinna być głowami. (Pamiętaj, że nie jest to wyprowadzanie statystyk, ale twoje logiczne rozumowanie). To jest twoja hipoteza. Tę hipotezę można przetestować na 2 sposoby: sposób bayesowski i częsty.
rocinante

Odpowiedzi:

10

θ

F={f(|θ); θΘ}
θH0:θΘ0F
F0={f(|θ); θΘ0}
Mρ0ρaπ0(θ)Θ0πa(θ)Θ
π(m=0|x)=ρ0Θ0f(x|θ)π0(θ)dθρ0Θ0f(x|θ)π0(θ)dθ+(1ρ0)Θf(x|θ)πa(θ)dθ
jak u Kevina Murphy'ego .

XN(θ,1)H0:θ=0θ=0N(0,1)θθN(0,10)ρ0=1/2

π(m=0|x)=12πexp{x2/2}12πexp{x2/2}+R12πexp{(xθ)2/2}12π×10exp{θ2/20}dθ=exp{x2/2}exp{x2/2}+111exp{x2/22}
Xi'an
źródło
pH(H0)F0θF0py|H(y|H0)H0H0
HmθFmHm=(θ,Fm)θFm
ϱ0H0F0ϱ0=0π0(θ)θH0
więc jeśli hipoteza jest krotką proponowanego modelu statystycznego i parametru domyślnego, w jaki sposób wybierany jest parametr domyślny?
Pinokio
θ=0
4

Doskonałe pytanie. Myślę, że twoje zamieszanie może wynikać z niektórych podstawowych różnic między perspektywami „częstych” i „bayesowskich”. Mam duże doświadczenie z pierwszym i jestem nowy w późniejszym, więc próba kilku prostych obserwacji może mi również pomóc. Zredagowałem twoje pytanie, aby wyjaśnić kilka różnic - przynajmniej tak, jak je rozumiem. Mam nadzieję, że nie masz nic przeciwko! Jeśli coś jest nie tak, możesz ponownie edytować swoje pytanie lub dodać komentarz do tej odpowiedzi.

1) Ryzykując, że zabrzmi to zbyt elementarnie: modelem jest każde stwierdzenie, które próbuje wyjaśnić rzeczywistość, takie jak: „Gdybym jadł naleśniki na śniadanie, musiałby to być wtorek”. Jako taki model jest hipotezą. Słynny cytat George'a Boxa: „Wszystkie modele są złe, niektóre modele są przydatne”. Aby model był użyteczny, musi istnieć jakiś sposób na przetestowanie go. Wprowadź koncepcję konkurujących hipotez i odpowiedz na jedno z twoich pytań. Sugerowałbym, że „... w kontekście wnioskowania statystycznego” hipoteza jest dowolnym modelem, który może być użyteczny i może zostać przetestowany matematycznie. Testowanie hipotez jest więc środkiem do podjęcia decyzji, czy model jest przydatny. Podsumowując, hipoteza jest rozważanym modelem. Mogą to być różne wartości parametrów tej samej funkcji lub różne funkcje.

2) Twoje wideo Kahna jest przykładem tego, co Bayesian nazywa „częstym” podejściem do testowania hipotez, więc mogło cię pomylić, gdy próbujesz zastosować go do notatek z wykładu, które są bayesowskie. Próbowałem znaleźć proste rozróżnienie między zastosowaniem tych dwóch podejść (co może być niebezpieczne). Myślę, że rozumiem rozróżnienie filozoficzne dość dobrze. Z tego, co widziałem, „Frequentist” zakłada losowy składnik danych i sprawdza, czy prawdopodobne jest, że dane otrzymają parametry nieprzypadkowe. „Bayesian” zakłada, że ​​dane są stałe i określa najbardziej prawdopodobną wartość parametrów losowych. Ta różnica prowadzi do różnych metod testowania.

W testowaniu hipotez „Frequentist” modelem, który może być przydatny, jest ten, który tłumaczy pewien efekt, a zatem porównuje się go z „hipotezą zerową” - modelem braku efektu. Podjęto próbę stworzenia użytecznego modelu, który wyklucza się wzajemnie z modelem bez efektu. Test polega na prawdopodobieństwie obserwacji danych przy założeniu braku efektu. Jeśli okaże się, że prawdopodobieństwo to jest niskie, hipoteza zerowa zostaje odrzucona, a alternatywa pozostaje wszystkim, co pozostało. (Zauważ, że purysta nigdy „nie zaakceptuje” hipotezy zerowej, tylko „nie odrzuci”. Może to brzmieć jak anioły tańczące na czubku szpilki, ale rozróżnienie jest fundamentalne filozoficzne) Statystyka wprowadzająca zwykle zaczyna się od tego, co może być najprostszym przykładem: „Dwie grupy są różne”.tak duże lub większe, jak zmierzono w losowym eksperymencie, biorąc pod uwagę, że nie różnią się od siebie. Jest to zwykle test t, w którym hipoteza zerowa mówi, że różnica średnich wynosi zero. Zatem parametr jest średnią przy stałej wartości zero.

Bayesian mówi: „Chwileczkę, zrobiliśmy te pomiary i są one różne, więc jak prawdopodobne?” Obliczają prawdopodobieństwo dla każdej wartości (teraz) losowego parametru i wybierają ten, który jest najwyższy jako najbardziej prawdopodobny. W pewnym sensie każda możliwa wartość parametru jest osobnym modelem. Ale teraz potrzebują sposobu, aby podjąć decyzję, czy model o najwyższym prawdopodobieństwie jest na tyle inny, że ma znaczenie. Dlatego w notatkach z wykładu wprowadzono funkcję kosztów. Aby podjąć dobrą decyzję, konieczne jest pewne założenie o konsekwencjach podjęcia złej decyzji.

3) „Co to znaczy przypisać hipotezę do każdej próbki danych?” Nie sądzę, że są. Uważaj, co należy rozumieć przez „punkt próbny”. Sądzę, że odnoszą się one do konkretnego wektora próbki i chcą wiedzieć, jak prawdopodobne jest prawdopodobieństwo każdej hipotezy dla wszystkich wektorów próbek w przestrzeni próbki. Równania (14) i (15) pokazują, jak porównać dwie hipotezy dla konkretnego wektora próbki. Upraszczają więc ogólny argument porównywania wielu hipotez, pokazując, jak porównać tylko dwie.

MT
źródło
0

Powiedz, że masz dane z zestawu pól. Dane składają się z długości (L), szerokości (W), wysokości (H) i objętości (V).

Jeśli nie wiemy dużo o pudełkach / geometrii, możemy wypróbować model:

V = a*L + b*W + c*H + e

Ten model ma trzy parametry (a, b, c), które można zmieniać, a także współczynnik błędu / kosztu (e) opisujący, jak dobrze hipoteza pasuje do danych. Każda kombinacja wartości parametrów byłaby uważana za inną hipotezę. Wybrana „domyślna” wartość parametru to zwykle zero, co w powyższym przykładzie odpowiadałoby „brakowi związku” między V i L, W, H.

Ludzie testują tę „domyślną” hipotezę, sprawdzając, czy e przekracza pewną wartość odcięcia, zwykle obliczając wartość p przy założeniu normalnego rozkładu błędu wokół dopasowania modelu. Jeśli ta hipoteza zostanie odrzucona, wówczas znajdą kombinację parametrów a, b, c, która maksymalizuje prawdopodobieństwo, i przedstawiają tę najbardziej prawdopodobną hipotezę. Jeśli są bayesowskie, mnożą prawdopodobieństwo przez pierwszeństwo dla każdego zestawu wartości parametrów i wybierają rozwiązanie, które maksymalizuje prawdopodobieństwo późniejsze.

Oczywiście strategia ta nie jest optymalna, ponieważ model zakłada addytywność i nie zauważy, że poprawna hipoteza to:

V = L*W*H + e

Edycja: @Pinocchio

Być może ktoś nie zgodził się z twierdzeniem, że testowanie hipotez nie jest optymalne, gdy nie ma racjonalnego powodu, aby wybrać jedną / kilka funkcji (lub, jak to ująłeś: „klasy hipotez”) spośród nieskończenie wielu możliwych. Oczywiście jest to trywialnie prawdziwe i „optymalne” może być użyte w ograniczonym sensie „najlepszego dopasowania, biorąc pod uwagę dostarczoną funkcję kosztów i opcje”. Ten komentarz znalazł się w mojej odpowiedzi, ponieważ nie podobało mi się, jak kwestia specyfikacji modelu została opisana w notatkach z zajęć. Jest to główny problem, przed którym stoją większość pracowników naukowych, dla których nie ma algorytmu.

Co więcej, nie mogłem zrozumieć wartości p, testowania hipotez itp., Dopóki nie zrozumiałem historii, więc być może to również pomoże. Istnieje wiele źródeł nieporozumień związanych z częstym testowaniem hipotez (nie znam tak dobrze historii wariantu bayesowskiego).

Istnieje coś, co pierwotnie nazywano „testowaniem hipotez” w sensie Neymana-Pearsona, „testowaniem istotności” opracowanym przez Ronalda Fishera, a także źle zdefiniowaną, nigdy właściwie nieuzasadnioną „hybrydą” tych dwóch strategii szeroko stosowanych w naukach (które może być swobodnie określany przy użyciu powyższego terminu lub „testowania znaczenia hipotezy zerowej”). Chociaż nie poleciłbym traktować strony wikipedii jako wiarygodnej, wiele źródeł omawiających te problemy można znaleźć tutaj . Niektóre główne punkty:

  1. Zastosowanie „domyślnej” hipotezy nie jest częścią oryginalnej procedury testowania hipotezy, a raczej użytkownik powinien wykorzystać wcześniejszą wiedzę do ustalenia rozważanych modeli. Nigdy nie widziałem wyraźnej rekomendacji zwolenników tego modelu, co robić, jeśli nie mamy konkretnego powodu, aby wybrać dany zestaw hipotez do porównania. Często mówi się, że takie podejście nadaje się do kontroli jakości, gdy znane są tolerancje do porównania niektórych pomiarów.

  2. Nie ma alternatywnej hipotezy w paradygmacie „testowania istotności” Fishera, jedynie hipoteza zerowa, która może zostać odrzucona, jeśli zostanie uznana za mało prawdopodobną z uwagi na dane. Z mojej lektury sam Fisher był jednoznaczny w stosowaniu domyślnych hipotez zerowych. Nigdy nie widziałem, żeby komentował tę sprawę wyraźnie, jednak z pewnością nie zalecił, aby była to jedyna hipoteza zerowa.

  3. Zastosowanie domyślnej zerowej hipotezy jest czasami interpretowane jako „nadużycie” testowania hipotez, ale jest kluczowe dla wspomnianej popularnej metody hybrydowej. Argument jest taki, że ta praktyka jest często „bezużytecznym wstępem”:

    „Badacz formułuje teoretyczną prognozę, ogólnie kierunek efektu ... Gdy dane faktycznie pokazują przewidywany wynik kierunkowy, wydaje się to potwierdzać hipotezę. Badacz testuje hipotezę zerową„ słomki ”, że efekt jest rzeczywiście zero. Jeśli tego ostatniego nie można odrzucić na poziomie .05 (lub jakiegoś wariantu), to nie można twierdzić o oczywistym potwierdzeniu teorii ... Częstym błędem w tego rodzaju teście jest pomylenie faktycznie osiągniętego poziomu istotności (dla odrzucenie zerowej wartości słomy) z poziomem potwierdzenia uzyskanym dla oryginalnej teorii ... siła potwierdzenia faktycznie zależy od [ostrości przewidywań liczbowych badacza], a nie od poziomu istotności osiągniętego dla zerowej wartości słomy ”.

    Hipoteza zerowa testująca kontrowersje w psychologii. David H Krantz. Journal of American Statistics Association; Grudzień 1999; 94, 448; 1372–1381

Film z Akademii Chana jest przykładem tej hybrydowej metody i jest winny popełnienia błędu wskazanego w tym cytacie. Z informacji dostępnych w tym filmie możemy jedynie wywnioskować, że wstrzyknięte szczury różnią się od nie wstrzykniętych, podczas gdy wideo twierdzi, że możemy stwierdzić, że „lek zdecydowanie ma pewien efekt”. Trochę refleksji doprowadziłoby nas do wniosku, że być może badane szczury były starsze niż nie wstrzyknięte itp. Musimy wykluczyć prawdopodobne alternatywne wyjaśnienia, zanim zaczniemy twierdzić, że istnieją dowody na naszą teorię. Im mniej szczegółowe przewidywanie teorii , tym trudniej to osiągnąć.

Edycja 2:

Być może skorzystanie z przykładu z notatek z diagnozy medycznej pomoże. Powiedzmy, że pacjent może być „normalny” lub „przełomem nadciśnieniowym”.

Wcześniej wiemy, że tylko 1% ludzi przeżywa kryzys nadciśnieniowy. Ludzie w kryzysie nadciśnieniowym mają skurczowe ciśnienie krwi, które ma normalny rozkład ze średnią = 180 i sd = 10. Tymczasem normalni ludzie mają ciśnienie krwi z rozkładu normalnego ze średnią = 120, sd = 10. Koszt osądu osoby normalnej, gdy jest ona równa zero, koszt braku diagnozy wynosi 1, a koszt z powodu skutków ubocznych leczenia wynosi 0,2, niezależnie od tego, czy znajduje się w kryzysie, czy nie. Następnie następujący kod R oblicza próg (eta) i iloraz prawdopodobieństwa. Jeśli współczynnik prawdopodobieństwa jest większy niż próg, decydujemy się leczyć, jeśli jest on niższy niż:

#Prior probabilities
P0=.99 #Prior probability patient is normal
P1=1-P0 #Prior probability patient is in crisis

#Hypotheses
H0<-dnorm(x=50:250, mean=120, sd=10) #H0: Patient is normal
H1<-dnorm(x=50:250, mean=180, sd=10) #H1: Patient in hypertensive crisis

#Costs
C00=0 #Decide normal when normal
C01=1 #Decide normal when in crisis
C10=.2 #Decide crisis when normal
C11=.2 #Decide crisis when in crisis

#Threshold
eta=P0*(C10-C00)/ P1*(C01-C11)

#Blood Pressure Measurements
y<-rnorm(3, 150, 20)

#Calculate Likelihood of Each Datapoint Given Each Hypothesis
L0vec=dnorm(x=y, mean=120, sd=10) #Vector of Likelihoods under H0
L1vec=dnorm(x=y, mean=180, sd=10) #Vector of Likelihoods under H1

#P(y|H) is the product of the likelihoods under each hypothesis
L0<-prod(L0vec)
L1<-prod(L1vec)

#L(y) is the ratio of the two likelihoods
LikRatio<-L1/L0


#Plot
plot(50:250, H0, type="l", col="Green", lwd=4, 
     xlab=" Systolic Blood Pressure", ylab="Probability Density Given Model",
     main=paste0("L=",signif(LikRatio,3)," eta=", signif(eta,3)))
lines(50:250, H1, col="Red", lwd=4)
abline(v=y)

#Decision
if(LikRatio>eta){
  print("L > eta  ---> Decision: Treat Patient")
}else{
  print("L < eta  ---> Do Not Treat Patient")
}

W powyższym scenariuszu próg eta = 15,84. Jeśli wykonamy trzy pomiary ciśnienia krwi i uzyskamy 139.9237, 125.2278, 190.3765, wówczas współczynnik prawdopodobieństwa wynosi 27,6 na korzyść H1: pacjent w kryzysie nadciśnieniowym. Ponieważ 27,6 jest większy niż próg, który wybralibyśmy. Wykres pokazuje normalną hipotezę w kolorze zielonym i nadciśnienie w kolorze czerwonym. Pionowe czarne linie wskazują wartości obserwacji.

wprowadź opis zdjęcia tutaj

Wściekły
źródło
czy osoba, która głosowała za tym, może to wyjaśnić? Co jest nie tak z tą odpowiedzią? : S
Pinokio
@ Pinokio Próbowałem wyjaśnić pewne historie w odpowiedzi, „testowanie hipotez” jest trudnym tematem do jasnego omówienia z tego powodu. Wydaje mi się, że odpowiedziałem na pytania dotyczące sposobu użycia modelu terminów / hipotezy, ale nie rozumiem tego: „Co to znaczy przypisać hipotezę do każdej próbki danych?”
Livid,
Nie rozumiem, dlaczego ta odpowiedź została odrzucona i dlaczego nie jest już bardziej pozytywna. To jest naprawdę doskonałe. Przydałoby się nieco więcej definicji teoretycznych, ale jest wyraźnie zorientowany na szerszą grupę odbiorców niż statystycy. Pierwszy przykład zastosowania GLM był szczególnie pouczający i całkowicie zgodny z moimi (licznymi) odczytami akademickimi. Najważniejsze jest to, że główną różnicą między testowaniem hipotez częstych i bayesowskich jest rozliczanie wcześniejszych w celu obliczenia MAP (zamiast tylko MLE).
gaboryczny
Mógłbym dodać, że graficzna reprezentacja pierwszego przykładu z GLM byłaby niesamowita i bardzo pouczająca, być może przy użyciu pewnego rodzaju wykresu dźwigni ?
gaborous