W wnioskowaniu bayesowskim, dlaczego niektóre terminy są odrzucane z późniejszej predykcji?

12

W koniugacie Bayesa z analizą bayesowską Kevina Murphy'ego rozkładu Gaussa pisze, że tylna dystrybucja predykcyjna jest

p(xD)=p(xθ)p(θD)dθ

gdzie to dane, na których model jest dopasowany, a to dane niewidoczne. Nie rozumiem, dlaczego zależność od znika w pierwszym członie całki. Stosując podstawowe zasady prawdopodobieństwa, spodziewałbym się:DxD

p(a)=p(ac)p(c)dcp(ab)=p(ac,b)p(cb)dcp(xD)=p(xθ,D)p(θD)dθ

Pytanie: Dlaczego zanika zależność od w wyrażeniu ?D


Za to, co jest warte, widziałem tego rodzaju sformułowanie (upuszczanie zmiennych w warunkowych) w innych miejscach. Na przykład w Bayesian Online Changepoint Detection Ryana Adama pisze późniejszą metodę predykcyjną jako

p(xt+1rt)=p(xt+1θ)p(θrt,xt)dθ

gdzie znowu, ponieważ , oczekiwałbymD={xt,rt}

p(xt+1xt,rt)=p(xt+1θ,xt,rt)p(θrt,xt)dθ

gwg
źródło

Odpowiedzi:

13

Jest to oparte na założeniu, że jest warunkowo niezależny od , biorąc pod uwagę . Jest to rozsądne założenie w wielu przypadkach, ponieważ wszystko, co mówi, to to, że dane szkoleniowe i testowe (odpowiednio i ) są generowane niezależnie z tego samego zestawu nieznanych parametrów . Biorąc pod uwagę to założenie niezależności, , więc wypada z bardziej ogólnej formy, jakiej się spodziewałeś.xDθDxθp(x|θ,D)=p(x|θ)D

W drugim przykładzie wydaje się, że zastosowano podobne założenie dotyczące niezależności, ale teraz (wyraźnie) w czasie. Założenia te mogą być wyraźnie określone w innym miejscu w tekście lub mogą być domyślnie jasne dla każdego, kto jest wystarczająco zaznajomiony z kontekstem problemu (chociaż niekoniecznie oznacza to, że w twoich konkretnych przykładach - z którymi nie jestem zaznajomiony - autorzy mieli rację przyjmując tę ​​znajomość).

Ruben van Bergen
źródło
9

Jest tak, ponieważ zakłada się , że jest niezależny od biorąc pod uwagę . Innymi słowy, zakłada się, że wszystkie dane pochodzą z rozkładu normalnego z parametrami . Po uwzględnieniu przy użyciu informacji z , nie ma już żadnych informacji, które daje nam o nowym punkcie danych . Dlatego .xDθθθDDxp(x|θ,D)=p(x|θ)

JP Trawiński
źródło