MAP jest rozwiązaniem dla

10

Natknąłem się na te slajdy (slajd 16 i 17) na jednym z kursów online. Instruktor próbował wyjaśnić, w jaki sposób Maximum Posterior Estimate (MAP) jest faktycznie rozwiązaniem , gdzie to prawdziwy parametr. $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ $\theta^{*}$

Czy ktoś może wyjaśnić, jak to wygląda?

Edycja: Dodano slajdy na wypadek, gdyby link się zepsuł.

bayesian optimization loss-functions decision-theory map-estimation Pszczoła
źródło

3

Po przejściu przez udostępnione slajdy wydaje mi się, że chodzi o wyjaśnienie, w jaki sposób można wykorzystać oszacowanie MAP do oszacowania różnych właściwości tylnej części ciała, takich jak średnia, tryb i mediana. Spróbuję to wyjaśnić w kontekście ogólnych estymatorów bayesowskich, jak przedstawiono w książce Stephena M. Kay'a, Podstawy statystycznego przetwarzania sygnałów .

Zacznijmy od rozważenia trzech rodzajów ryzyka (tj. Funkcji kosztów) związanych z oszacowaniem parametru : $\theta$

$C(e) = e^2$

$C(e) = |e|$

$if -\delta < e < \delta, C(e)=0$ ; w przeciwnym razie $C(e)=1$

gdzie , w którym jest wartością szacunkową, a jest prawdziwym parametrem. W szacunkach Bayesa celem jest zminimalizowanie oczekiwanego ryzyka, to znaczy: $e = \theta - \hat{\theta}$ $\hat{\theta}$ $\theta$

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

ponieważ zależy nam tylko na , skupimy się na wewnętrznej całce . $\theta$ $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$

Teraz, w zależności od wybranego , estymator da nam inną właściwość tylnej części ciała. Na przykład, jeśli wybierzemy pierwszy przypadek, , średnia to minimalizacja dla . Ponieważ twoje pytanie dotyczy funkcji wskaźnika , zajmę się trzecim wspomnianym wyżej ryzykiem (które, jeśli o tym pomyślisz, dla jest równoważne za pomocą wskaźnika). $C(e)$ $C(e) = e^2$ $\theta$ $\int_\theta C(e)p(\theta|X)d\theta$ $I[\hat{\theta}\ne \theta]$ $\delta\rightarrow 0$

W przypadku 3 powyżej:

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

który dla jest minimalizowany, gdy odpowiada trybowi tylnej. $\delta \rightarrow 0$ $\hat{\theta}$

idnavid
źródło

2

Dziękuję za wspaniałe wyjaśnienie. Przyszli czytelnicy mogą przeczytać o tym samym w podobnym podręczniku: Rozdział 5 Machine_Learning a Probabilistic Perspective autor: Kevin Murphy

honeybadger

Czy możesz podać szczegóły tego ograniczającego argumentu w ? Czy masz na myśli granicę procedury, gdy osiąga zero, czy granicę ubytku z tyłu?

δ

$\delta$

δ

$\delta$

Xi'an

Mam na myśli granicę oczekiwań .

E [C (e)]

$E[C(e)]$

idnavid,

10

W konkretnym przypadku przestrzeń parametrów jest skończona lub w nieskończoność nieskończona strata tylna związana z utratą wskaźnika jest równa prawdopodobieństwu błędu i jest zminimalizowane, gdy maksymalne prawdopodobieństwo bycia poprawnym jest zmaksymalizowane. Oznacza to, że jest trybem dystrybucji tylnej lub MAP. $\Theta$

Θ = {θ_{1}, θ_{2)}, \dots}

$\Theta=\{\theta_1,\theta_2,\ldots\}$

P (\hat{θ} \neq θ | x)

$\mathbb{P}(\hat{\theta}\ne\theta|x)$

P (\hat{θ} = θ | x)

$\mathbb{P}(\hat{\theta}=\theta|x)$

\hat{θ}

$\hat{\theta}$

Jednak to powiązanie MAP i utraty jest „twierdzeniem ludowym”, ponieważ jest niepoprawne w większości ustawień, tj. Nie dotyczy ciągłych przestrzeni parametrów, w których dla wszystkich i dalej koliduje z wynikami Druihleta i Marina (BA, 2007), którzy wskazują, że MAP ostatecznie zależy od wyboru dominującej miary. (Mimo że domyślnie wybrano domyślnie miarę Lebesgue'a). $0-1$ $\mathbb{P}(\hat{\theta}=\theta|x)=0$ $\hat{\theta}$

Na przykład Evans i Jang opublikowali artykuł arXiv w 2011 r., W którym omawiają związek między MAP, estymatory najmniejszego zaskoczenia (lub maksymalnego prawdopodobieństwa profilu) i funkcje strat. Istotą sprawy jest to, że ani estymatory MAP, ani MLE nie są tak naprawdę uzasadnione podejściem teoretycznym, przynajmniej w ciągłej przestrzeni parametrów. I że dominująca miara [arbitralnie] wybrana w przestrzeni parametrów wpływa na wartość MAP, jak wykazali Druihlet i Marin w 2007 r. Zaczynają w skończonym przypadku funkcją straty

L. (θ, re) = ja {Ψ (θ) \neq re) / π_{Ψ} (Ψ (θ))

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta))$ gdzie rozważają oszacowanie przekształcenia Ψ (θ) przez d, odwrotnie ważone przez margines przed transformacją. W szczególnym przypadku transformacji tożsamości ta funkcja straty prowadzi do MLE jako estymatora Bayesa. W ogólnym przypadku estymator Bayesa jest estymatorem największego prawdopodobieństwa profilu (LRSE). Jednak ta funkcja strat nie uogólnia na licznie nieskończone (i oczywiście ciągłe) przestrzenie parametrów iw takich ustawieniach autorzy mogą podać LRSE jedynie jako ograniczenia procedur Bayesa. Funkcja utraty przyjęta w przypadku policzalnym to na przykład

L. (θ, re) = ja {Ψ (θ) \neq re} / max {η, π_{Ψ} (Ψ (θ))}

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\}$ z ograniczeniem malejącym do zera. W przypadku ciągłym wskaźnik już nie działa, dlatego wybór dokonany przez autorów polega na dyskretyzacji przestrzeni Ψ (Θ) poprzez konkretny wybór podziału kul, których średnice λ sięgają zera. W duchu Druihleta i Marina wybór ten zależy od metryki (i dalszych warunków prawidłowości). Ponadto sam LRSE zależy od wersji wybranej dla gęstości (jeśli nie od miary dominującej), chyba że jedna wszędzie nakłada równość Bayesa wszędzie, gdy i

max_{ψ} π_{ψ} (ψ | x) / π_{ψ} (θ)

$\max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta)$

π_{ψ} (ψ | x) / π_{ψ} (θ) = fa (x | ψ) / m (x)

$\pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x)$

fa (x | ψ) = \int_{{θ; Ψ (θ) = ψ}} fa (x | θ) π (θ) re θ

$f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta$

m (x) = \int fa (x | θ) π (θ) re θ

$m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta$ w duchu naszego paradoksu Savage-Dickey .

Robert Bassett i Julio Deride opracowali artykuł w 2016 r. Omawiający pozycję MAP w teorii decyzji bayesowskiej.

„… Przedstawiamy kontrprzykład w powszechnie przyjętym pojęciu estymatorów MAP jako granicy estymatorów Bayesa mających straty 0-1”.

Autorzy wspominają moją książkę The Bayesian Choice stwierdzającą tę właściwość bez dalszych środków ostrożności i całkowicie zgadzam się na nieostrożność w tym względzie! Trudność polega na tym, że limit maksymalizatorów niekoniecznie jest maksymalizatorem limitu. Artykuł zawiera przykład tego efektu, z uprzednim jak wyżej, związanym z rozkładem próbkowania, który nie zależy od parametru. Proponowane tam wystarczające warunki są takie, że gęstość tylna jest prawie na pewno właściwa lub prawie wklęsła.

Zobacz także alternatywną charakterystykę estymatorów MAP autorstwa Burgera i Lucki jako właściwych estymatorów Bayesa w ramach innego rodzaju funkcji straty , aczkolwiek raczej sztucznej. Autorzy tego opracowanego artykułu zaczynają od odległości opartej na wcześniejszym; zwany odległością Bregmana, która może być kwadratową lub entropijną odległością w zależności od wcześniejszego. Definiowanie funkcji straty, która jest połączeniem odległości Bregmana i odległości kwadratowej

| | K. (\hat{u} - u) | |^{2)} + 2) {re}_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ tworzy MAP jako estymator Bayesa. Nadal można się zastanawiać nad miarą dominującą, ale zarówno funkcja straty, jak i wynikowy estymator są wyraźnie zależne od wyboru miary dominującej… (Strata zależy od wcześniejszego, ale nie jest to wada sama w sobie).

Xi'an
źródło

1

Podsumuję wspomniany tekst na temat tego problemu w rozdziale 5, Statystyka bayesowska, uczenie maszynowe: perspektywa probabilistyczna - Murphy .

Powiedzmy, że zaobserwowaliśmy pewne dane i chcemy skomentować rozkład tylny parametrów . Oszacowanie punktowe trybu tego rozkładu tylnego, który jest powszechnie znany jako MAP, ma pewne wady. $X$ $p(\theta|X)$

W przeciwieństwie do średniej lub mediany, jest to punkt „nietypowy”, w tym sensie, że nie uwzględnia wszystkich pozostałych punktów podczas szacowania. W przypadku szacowania średniej / mediany uwzględniamy wszystkie pozostałe punkty.

Tak więc, zgodnie z oczekiwaniami, w mocno wypaczonych rozkładach tylnych MAP (a przez to MLE) tak naprawdę nie reprezentuje faktycznie tylnych.

Jak więc podsumować a posterior przy użyciu oceny punktowej, takiej jak Średnia / Mediana / Tryb?

To tutaj ludzie używają teorii decyzji - zasadniczo funkcji straty która jest stratą, którą ponosimy, jeśli prawda jest a jest naszym oszacowaniem. Możemy wybierać różne funkcje strat, a naszym celem jest zminimalizowanie oczekiwanej wartości funkcji strat. $L(\theta, \hat{\theta})$ $\theta$ $\hat{\theta}$

Jeśli funkcja Loss jest ustawiona jako , funkcja wskaźnika dla wszystkich czasów, kiedy NIE MOŻEMY oszacuj prawdę, a następnie zminimalizowanie oczekiwanej wartości funkcji Loss wrt jest równe Maksymalizacji tej funkcji wrt . Na tej podstawie intuicyjne jest odgadnięcie, że tryb Tylny minimalizuje oczekiwaną wartość funkcji utraty. Szczegóły tego obliczenia można zobaczyć w powyższej odpowiedzi . $L(\theta, \hat{\theta})$ $\mathbb{I}(\hat{\theta}\ne\theta|x)$ $\theta$ $\mathbb{I}(\hat{\theta}=\theta|x)$ $\theta$

Pszczoła
źródło

MAP jest rozwiązaniem dla

Odpowiedzi: