Regresja Bayesa: jak to się robi w porównaniu do regresji standardowej?

Mam pytania dotyczące regresji bayesowskiej:

Biorąc pod uwagę standardową regresję jako . Jeśli chcę zmienić to w regresję bayesowską, czy potrzebuję wcześniejszych dystrybucji zarówno dla i (czy to nie działa w ten sposób)? $y = \beta_0 + \beta_1 x + \varepsilon$ $\beta_0$ $\beta_1$
W regresji standardowej próbowano by zminimalizować reszty, aby uzyskać pojedyncze wartości dla i . Jak to się robi w regresji Bayesa? $\beta_0$ $\beta_1$

Naprawdę dużo tu walczę:

posterior = prior \times likelihood

$\text{posterior} = \text{prior} \times \text{likelihood}$

Prawdopodobieństwo pochodzi z bieżącego zestawu danych (więc jest to mój parametr regresji, ale nie jako pojedyncza wartość, ale jako rozkład prawdopodobieństwa, prawda?). Prior pochodzi z poprzednich badań (powiedzmy). Mam więc to równanie:

y = β_{1} x + ε

$y = \beta_1 x + \varepsilon$

z tym, że jest moim prawdopodobieństwem lub jest z tyłu (czy jest to całkowicie błędne)? $\beta_1$

Po prostu nie rozumiem, jak regresja standardowa przekształca się w regresję Bayesa.

regression bayesian TinglTanglBob
źródło

Odpowiedzi:

Prosty model regresji liniowej

y_{i} = α + β x_{i} + ε

$y_i = \alpha + \beta x_i + \varepsilon$

można napisać w oparciu o model probabilistyczny

μ_{i} = α + β x_{i} y_{i} \sim N (μ_{i}, σ)

$\mu_i = \alpha + \beta x_i \\ y_i \sim \mathcal{N}(\mu_i, \sigma)$

tj. zmienna zależna podąża za rozkładem normalnym sparametryzowanym za pomocą , to jest funkcją liniową sparametryzowanego przez i odchylenie standardowe . Jeśli oszacujesz taki model za pomocą zwykłych najmniejszych kwadratów , nie musisz przejmować się sformułowaniem probabilistycznym, ponieważ szukasz optymalnych wartości parametrów , minimalizując błędy kwadratu dopasowanych wartości do wartości przewidywanych. Z drugiej strony, można oszacować taki model przy użyciu oszacowania maksymalnego prawdopodobieństwa $Y$ $\mu_i$ $X$ $\alpha,\beta$ $\sigma$ $\alpha,\beta$ , gdzie szukamy optymalnych wartości parametrów poprzez maksymalizację funkcji prawdopodobieństwa

\underset{α, β, σ}{a r g m a x} \prod_{i = 1}^{n} N (y_{i}; α + β x_{i}, σ)

$\DeclareMathOperator*{\argmax}{arg\,max} \argmax_{\alpha,\,\beta,\,\sigma} \prod_{i=1}^n \mathcal{N}(y_i; \alpha + \beta x_i, \sigma)$

gdzie jest funkcją gęstości rozkładu normalnego ocenianą w punktach , parametryzowaną za pomocą i odchylenia standardowego . $\mathcal{N}$ $y_i$ $\alpha + \beta x_i$ $\sigma$

W podejściu Bayesa zamiast maksymalizować samą funkcję prawdopodobieństwa, przyjmowalibyśmy wcześniejsze rozkłady parametrów i używaliśmy twierdzenia Bayesa

posterior \propto likelihood \times prior

$\text{posterior} \propto \text{likelihood} \times \text{prior}$

$\alpha,\beta,\sigma$

\underset{posterior}{\underset{⏟}{f (α, β, σ ∣ Y, X)}} \propto \underset{likelihood}{\underset{⏟}{\prod_{i = 1}^{n} N (y_{i} ∣ α + β x_{i}, σ)}} \underset{priors}{\underset{⏟}{f_{α} (α) f_{β} (β) f_{σ} (σ)}}

$\underbrace{f(\alpha,\beta,\sigma\mid Y,X)}_{\text{posterior}} \propto \underbrace{\prod_{i=1}^n \mathcal{N}(y_i\mid \alpha + \beta x_i, \sigma)}_{\text{likelihood}} \; \underbrace{f_{\alpha}(\alpha) \, f_{\beta}(\beta) \, f_{\sigma}(\sigma)}_{\text{priors}}$

$\alpha,\beta$ $t$ $\sigma$

(źródło: http://www.indiana.edu/~kruschke/BMLR/ )

Podczas gdy z największym prawdopodobieństwem szukałeś jednej optymalnej wartości dla każdego z parametrów, w podejściu bayesowskim, stosując twierdzenie Bayesa, otrzymujesz tylny rozkład parametrów. Ostateczne oszacowanie będzie zależeć od informacji pochodzących z twoich danych i twoich priorytetów , ale im więcej informacji jest zawartych w twoich danych, tym mniej wpływowe są priory .

$f(\theta) \propto 1$

Aby oszacować model w podejściu bayesowskim, w niektórych przypadkach można użyć sprzężonych priorów , więc rozkład tylny jest bezpośrednio dostępny (patrz przykład tutaj ). Jednak w zdecydowanej większości przypadków rozkład tylny nie będzie dostępny bezpośrednio i będziesz musiał użyć metod Markowa Łańcucha Monte Carlo do oszacowania modelu (sprawdź ten przykład użycia algorytmu Metropolis-Hastings do oszacowania parametrów regresji liniowej). Wreszcie, jeśli jesteś zainteresowany tylko punktowymi oszacowaniami parametrów, możesz użyć maksymalnego oszacowania a posteriori , tj

\underset{α, β, σ}{a r g m a x} f (α, β, σ ∣ Y, X)

$\argmax_{\alpha,\,\beta,\,\sigma} f(\alpha,\beta,\sigma\mid Y,X)$

Aby uzyskać bardziej szczegółowy opis regresji logistycznej, możesz sprawdzić model logiki Bayesa - intuicyjne wyjaśnienie? wątek.

Aby dowiedzieć się więcej, sprawdź następujące książki:

Kruschke, J. (2014). Przeprowadzanie analizy danych bayesowskich: samouczek z R, JAGS i Stanem. Prasa akademicka.

Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2004). Analiza danych bayesowskich. Chapman & Hall / CRC.

Tim
źródło

$\beta_i$ $\beta_i$

+1. Jeszcze jedną rzeczą, która może być użyteczna do wyjaśnienia związku między podejściami bayesowskimi i OLS, jest to, że OLS można rozumieć jako środkowy środek pod płaskim uprzedzeniem (przynajmniej o ile rozumiem). Byłoby wspaniale, gdybyś mógł rozwinąć to nieco w swojej odpowiedzi.

ameba mówi Przywróć Monikę

@amoeba to dobra uwaga, pomyślę o tym. Ale z drugiej strony nie chcę, aby odpowiedź była zbyt długa, więc sens ma szczegółowość.

Tim

@amoeba FYI, dodałem krótki komentarz na ten temat.

Tim

$D = (x_1,y_1), \ldots, (x_N,y_N)$ $x \in \mathbb{R}^d, y \in \mathbb{R}$

w \sim N (0, σ_{w}^{2} I_{d})

$w \sim \mathcal{N}(0, \sigma_w^2 I_d)$

$w$ $(w_1, \ldots, w_d)^T$ $I_d$ $d\times d$

Y_{i} \sim N (w^{T} x_{i}, σ^{2})

$Y_i \sim \mathcal{N}(w^T x_i, \sigma^2)$

$Y_i \perp Y_j | w, i \neq j$

$a = 1/\sigma^2$ $b = 1/\sigma_w^2$ $a,b$

p (w) \propto \exp {- \frac{b}{2} w^{t} w}

$p(w) \propto \exp \Big\{ -\frac{b}{2} w^t w \Big\}$

p (D | w) \propto \exp {- \frac{a}{2} (y - A w)^{T} (y - A w)}

$p(D|w) \propto \exp \Big\{ -\frac{a}{2} (y-Aw)^T (y-Aw) \Big\}$

$y = (y_1,\ldots,y_N)^T$ $A$ $n\times d$ $x_i^T$

p (w | D) \propto p (D | w) p (w)

$p(w|D) \propto p(D|w) p(w)$

Po wielu obliczeniach odkrywamy to

p (w | D) \sim N (w | μ, Λ^{- 1})

$p(w|D) \sim \mathcal{N}(w | \mu, \Lambda^{-1})$

$\Lambda$

Λ = a A^{T} A + b I_{d}

$\Lambda = a A^T A + b I_d$

μ = a Λ^{- 1} A^{T} y

$\mu = a \Lambda^{-1} A^T y$

$\mu$ $w_{MAP}$

$\mu$ $\Lambda = aA^TA+bI_d$

μ = (A^{T} A + \frac{b}{a} I_{d})^{- 1} A^{T} y

$\mu = (A^T A + \frac{b}{a} I_d)^{-1} A^T y$

$w_{MLE}$

w_{M L E} = (A^{T} A)^{- 1} A^{T} y

$w_{MLE} = (A^T A)^{-1} A^T y$

$\mu$ $\lambda = \frac{b}{a}$

W przypadku predykcyjnego rozkładu z tyłu:

p (y | x, D) = \int p (y | x, D, w) p (w | x, D) d w = \int p (y | x, w) p (w | D) d w

można to obliczyć

y | x, D \sim N (μ^{T} x, \frac{1}{a} + x^{T} Λ^{- 1} x)

$y|x,D \sim \mathcal{N}(\mu^Tx, \frac{1}{a} + x^T \Lambda^{-1}x)$

Odnośnik: Lunn i in. Księga błędów

Aby użyć narzędzia MCMC, takiego jak JAGS / Stan, sprawdź Doing Bayesian Data Analysis firmy Kruschke

jpneto
źródło

Dziękuję jpneto. czuję, że to świetna odpowiedź, ale jeszcze jej nie rozumiem z powodu braku wiedzy matematycznej. Ale na pewno przeczytam go ponownie po zdobyciu umiejętności matematycznych

TinglTanglBob

To bardzo miłe, ale założenie, że znana jest precyzja, jest dość rzadkie. Czy nie jest o wiele bardziej powszechne zakładanie odwrotnego rozkładu gamma dla wariancji, tj. Rozkładu gamma dla precyzji?

DeltaIV

w

$w$

w \sim N (0, λ^{- 1} I_{d})

$w \sim N(0,\lambda^{-1} I_d)$

λ

$\lambda$

@DeltaIV: jasne, gdy mamy niepewność co do parametru, możemy go modelować z wyprzedzeniem. Założeniem znanej precyzji jest ułatwienie znalezienia rozwiązania analitycznego. Zazwyczaj te rozwiązania analityczne nie są możliwe i musimy stosować przybliżenia, takie jak MCMC lub niektóre techniki wariacyjne.

jpneto