Regresja Bayesa: jak to się robi w porównaniu do regresji standardowej?

57

Mam pytania dotyczące regresji bayesowskiej:

  1. Biorąc pod uwagę standardową regresję jako . Jeśli chcę zmienić to w regresję bayesowską, czy potrzebuję wcześniejszych dystrybucji zarówno dla β 0, jak i β 1 (czy to nie działa w ten sposób)?y=β0+β1x+εβ0β1

  2. W regresji standardowej próbowano by zminimalizować reszty, aby uzyskać pojedyncze wartości dla i β 1 . Jak to się robi w regresji Bayesa?β0β1


Naprawdę dużo tu walczę:

posterior=prior×likelihood

Prawdopodobieństwo pochodzi z bieżącego zestawu danych (więc jest to mój parametr regresji, ale nie jako pojedyncza wartość, ale jako rozkład prawdopodobieństwa, prawda?). Prior pochodzi z poprzednich badań (powiedzmy). Mam więc to równanie:

y=β1x+ε

z tym, że jest moim prawdopodobieństwem lub jest z tyłu (czy jest to całkowicie błędne)? β1

Po prostu nie rozumiem, jak regresja standardowa przekształca się w regresję Bayesa.

TinglTanglBob
źródło

Odpowiedzi:

93

Prosty model regresji liniowej

yi=α+βxi+ε

można napisać w oparciu o model probabilistyczny

μi=α+βxiyiN(μi,σ)

tj. zmienna zależna podąża za rozkładem normalnym sparametryzowanym za pomocą μ i , to jest funkcją liniową X sparametryzowanego przez α , β i odchylenie standardowe σ . Jeśli oszacujesz taki model za pomocą zwykłych najmniejszych kwadratów , nie musisz przejmować się sformułowaniem probabilistycznym, ponieważ szukasz optymalnych wartości parametrów α , β , minimalizując błędy kwadratu dopasowanych wartości do wartości przewidywanych. Z drugiej strony, można oszacować taki model przy użyciu oszacowania maksymalnego prawdopodobieństwaYμiXα,βσα,β, gdzie szukamy optymalnych wartości parametrów poprzez maksymalizację funkcji prawdopodobieństwa

argmaxα,β,σi=1nN(yi;α+βxi,σ)

gdzie jest funkcją gęstości rozkładu normalnego ocenianą w punktach y i , parametryzowaną za pomocą α + β x i i odchylenia standardowego σ .Nyiα+βxiσ

W podejściu Bayesa zamiast maksymalizować samą funkcję prawdopodobieństwa, przyjmowalibyśmy wcześniejsze rozkłady parametrów i używaliśmy twierdzenia Bayesa

posteriorlikelihood×prior

α,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

α,βtσ

Sformułowanie modelu regresji liniowej Bayesa

(źródło: http://www.indiana.edu/~kruschke/BMLR/ )

Podczas gdy z największym prawdopodobieństwem szukałeś jednej optymalnej wartości dla każdego z parametrów, w podejściu bayesowskim, stosując twierdzenie Bayesa, otrzymujesz tylny rozkład parametrów. Ostateczne oszacowanie będzie zależeć od informacji pochodzących z twoich danych i twoich priorytetów , ale im więcej informacji jest zawartych w twoich danych, tym mniej wpływowe są priory .

f(θ)1

Aby oszacować model w podejściu bayesowskim, w niektórych przypadkach można użyć sprzężonych priorów , więc rozkład tylny jest bezpośrednio dostępny (patrz przykład tutaj ). Jednak w zdecydowanej większości przypadków rozkład tylny nie będzie dostępny bezpośrednio i będziesz musiał użyć metod Markowa Łańcucha Monte Carlo do oszacowania modelu (sprawdź ten przykład użycia algorytmu Metropolis-Hastings do oszacowania parametrów regresji liniowej). Wreszcie, jeśli jesteś zainteresowany tylko punktowymi oszacowaniami parametrów, możesz użyć maksymalnego oszacowania a posteriori , tj

argmaxα,β,σf(α,β,σY,X)

Aby uzyskać bardziej szczegółowy opis regresji logistycznej, możesz sprawdzić model logiki Bayesa - intuicyjne wyjaśnienie? wątek.

Aby dowiedzieć się więcej, sprawdź następujące książki:

Kruschke, J. (2014). Przeprowadzanie analizy danych bayesowskich: samouczek z R, JAGS i Stanem. Prasa akademicka.

Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2004). Analiza danych bayesowskich. Chapman & Hall / CRC.

Tim
źródło
2
βiβi
2
+1. Jeszcze jedną rzeczą, która może być użyteczna do wyjaśnienia związku między podejściami bayesowskimi i OLS, jest to, że OLS można rozumieć jako środkowy środek pod płaskim uprzedzeniem (przynajmniej o ile rozumiem). Byłoby wspaniale, gdybyś mógł rozwinąć to nieco w swojej odpowiedzi.
ameba mówi Przywróć Monikę
@amoeba to dobra uwaga, pomyślę o tym. Ale z drugiej strony nie chcę, aby odpowiedź była zbyt długa, więc sens ma szczegółowość.
Tim
1
@amoeba FYI, dodałem krótki komentarz na ten temat.
Tim
22

D=(x1,y1),,(xN,yN)xRd,yR

wN(0,σw2Id)

w(w1,,wd)TIdd×d

YiN(wTxi,σ2)

YiYj|w,ij

a=1/σ2b=1/σw2a,b

p(w)exp{b2wtw}

p(D|w)exp{a2(yAw)T(yAw)}

y=(y1,,yN)TAn×dxiT

p(w|D)p(D|w)p(w)

Po wielu obliczeniach odkrywamy to

p(w|D)N(w|μ,Λ1)

Λ

Λ=aATA+bId
μ=aΛ1ATy

μwMAP

μΛ=aATA+bId

μ=(ATA+baId)1ATy

wMLE

wMLE=(ATA)1ATy

μλ=ba

W przypadku predykcyjnego rozkładu z tyłu:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

można to obliczyć

y|x,DN(μTx,1a+xTΛ1x)

Odnośnik: Lunn i in. Księga błędów

Aby użyć narzędzia MCMC, takiego jak JAGS / Stan, sprawdź Doing Bayesian Data Analysis firmy Kruschke

jpneto
źródło
Dziękuję jpneto. czuję, że to świetna odpowiedź, ale jeszcze jej nie rozumiem z powodu braku wiedzy matematycznej. Ale na pewno przeczytam go ponownie po zdobyciu umiejętności matematycznych
TinglTanglBob
1
To bardzo miłe, ale założenie, że znana jest precyzja, jest dość rzadkie. Czy nie jest o wiele bardziej powszechne zakładanie odwrotnego rozkładu gamma dla wariancji, tj. Rozkładu gamma dla precyzji?
DeltaIV
w
wN(0,λ1Id)λ
1
@DeltaIV: jasne, gdy mamy niepewność co do parametru, możemy go modelować z wyprzedzeniem. Założeniem znanej precyzji jest ułatwienie znalezienia rozwiązania analitycznego. Zazwyczaj te rozwiązania analityczne nie są możliwe i musimy stosować przybliżenia, takie jak MCMC lub niektóre techniki wariacyjne.
jpneto