Po przejściu przez udostępnione slajdy wydaje mi się, że chodzi o wyjaśnienie, w jaki sposób można wykorzystać oszacowanie MAP do oszacowania różnych właściwości tylnej części ciała, takich jak średnia, tryb i mediana. Spróbuję to wyjaśnić w kontekście ogólnych estymatorów bayesowskich, jak przedstawiono w książce Stephena M. Kay'a, Podstawy statystycznego przetwarzania sygnałów .
Zacznijmy od rozważenia trzech rodzajów ryzyka (tj. Funkcji kosztów) związanych z oszacowaniem parametru :θ
- do( e ) = e2)
- do( e ) = | e |
- i f- δ< e < δ, C.( e ) = 0 ; w przeciwnym raziedo( e ) = 1
gdzie , w którym jest wartością szacunkową, a jest prawdziwym parametrem. W szacunkach Bayesa celem jest zminimalizowanie oczekiwanego ryzyka, to znaczy:e = θ - θ^θ θθ^θ
mi[ C( e ) ] = ∫X∫θdo( e ) p ( X, θ ) dθ dX= ∫X[ ∫θdo( e ) p ( θ | X) dθ ] p ( X) dX
ponieważ zależy nam tylko na , skupimy się na wewnętrznej całce .θminθ∫θdo( e ) p ( θ | X) dθ
Teraz, w zależności od wybranego , estymator da nam inną właściwość tylnej części ciała. Na przykład, jeśli wybierzemy pierwszy przypadek, , średnia to minimalizacja dla . Ponieważ twoje pytanie dotyczy funkcji wskaźnika , zajmę się trzecim wspomnianym wyżej ryzykiem (które, jeśli o tym pomyślisz, dla jest równoważne za pomocą wskaźnika).do( e )do( e ) = e2)θ∫θdo( e ) p ( θ | X) dθja[ θ^≠ θ ]δ→ 0
W przypadku 3 powyżej:
∫θdo( e ) p ( θ | X) dθ = ∫θ^- δ- ∞p ( θ | X) dθ + ∫∞θ^+ δp ( θ | X) dθ = 1 - ∫θ^+ δθ^+ δp ( θ | X) dθ
który dla jest minimalizowany, gdy odpowiada trybowi tylnej.δ→ 0θθ^
W konkretnym przypadku przestrzeń parametrów jest skończona lub w nieskończoność nieskończona strata tylna związana z utratą wskaźnika jest równa prawdopodobieństwu błędu i jest zminimalizowane, gdy maksymalne prawdopodobieństwo bycia poprawnym jest zmaksymalizowane. Oznacza to, że jest trybem dystrybucji tylnej lub MAP.Θ = { θ 1 , θ 2 , ... } P ( θ ≠ θ | x ) P ( θ = θ | x ) θΘ
Jednak to powiązanie MAP i utraty jest „twierdzeniem ludowym”, ponieważ jest niepoprawne w większości ustawień, tj. Nie dotyczy ciągłych przestrzeni parametrów, w których dla wszystkich i dalej koliduje z wynikami Druihleta i Marina (BA, 2007), którzy wskazują, że MAP ostatecznie zależy od wyboru dominującej miary. (Mimo że domyślnie wybrano domyślnie miarę Lebesgue'a).P ( θ = θ | x ) = 0 θ0 - 1 P ( θ^= θ | x ) = 0 θ^
Na przykład Evans i Jang opublikowali artykuł arXiv w 2011 r., W którym omawiają związek między MAP, estymatory najmniejszego zaskoczenia (lub maksymalnego prawdopodobieństwa profilu) i funkcje strat. Istotą sprawy jest to, że ani estymatory MAP, ani MLE nie są tak naprawdę uzasadnione podejściem teoretycznym, przynajmniej w ciągłej przestrzeni parametrów. I że dominująca miara [arbitralnie] wybrana w przestrzeni parametrów wpływa na wartość MAP, jak wykazali Druihlet i Marin w 2007 r. Zaczynają w skończonym przypadku funkcją straty
Robert Bassett i Julio Deride opracowali artykuł w 2016 r. Omawiający pozycję MAP w teorii decyzji bayesowskiej.
Autorzy wspominają moją książkę The Bayesian Choice stwierdzającą tę właściwość bez dalszych środków ostrożności i całkowicie zgadzam się na nieostrożność w tym względzie! Trudność polega na tym, że limit maksymalizatorów niekoniecznie jest maksymalizatorem limitu. Artykuł zawiera przykład tego efektu, z uprzednim jak wyżej, związanym z rozkładem próbkowania, który nie zależy od parametru. Proponowane tam wystarczające warunki są takie, że gęstość tylna jest prawie na pewno właściwa lub prawie wklęsła.
Zobacz także alternatywną charakterystykę estymatorów MAP autorstwa Burgera i Lucki jako właściwych estymatorów Bayesa w ramach innego rodzaju funkcji straty , aczkolwiek raczej sztucznej. Autorzy tego opracowanego artykułu zaczynają od odległości opartej na wcześniejszym; zwany odległością Bregmana, która może być kwadratową lub entropijną odległością w zależności od wcześniejszego. Definiowanie funkcji straty, która jest połączeniem odległości Bregmana i odległości kwadratowej
źródło
Podsumuję wspomniany tekst na temat tego problemu w rozdziale 5, Statystyka bayesowska, uczenie maszynowe: perspektywa probabilistyczna - Murphy .
Powiedzmy, że zaobserwowaliśmy pewne dane i chcemy skomentować rozkład tylny parametrów . Oszacowanie punktowe trybu tego rozkładu tylnego, który jest powszechnie znany jako MAP, ma pewne wady.X p ( θ | X)
W przeciwieństwie do średniej lub mediany, jest to punkt „nietypowy”, w tym sensie, że nie uwzględnia wszystkich pozostałych punktów podczas szacowania. W przypadku szacowania średniej / mediany uwzględniamy wszystkie pozostałe punkty.
Tak więc, zgodnie z oczekiwaniami, w mocno wypaczonych rozkładach tylnych MAP (a przez to MLE) tak naprawdę nie reprezentuje faktycznie tylnych.
Jak więc podsumować a posterior przy użyciu oceny punktowej, takiej jak Średnia / Mediana / Tryb?
To tutaj ludzie używają teorii decyzji - zasadniczo funkcji straty która jest stratą, którą ponosimy, jeśli prawda jest a jest naszym oszacowaniem. Możemy wybierać różne funkcje strat, a naszym celem jest zminimalizowanie oczekiwanej wartości funkcji strat.L ( θ , θ^) θ θ^
Jeśli funkcja Loss jest ustawiona jako , funkcja wskaźnika dla wszystkich czasów, kiedy NIE MOŻEMY oszacuj prawdę, a następnie zminimalizowanie oczekiwanej wartości funkcji Loss wrt jest równe Maksymalizacji tej funkcji wrt . Na tej podstawie intuicyjne jest odgadnięcie, że tryb Tylny minimalizuje oczekiwaną wartość funkcji utraty. Szczegóły tego obliczenia można zobaczyć w powyższej odpowiedzi .L ( θ , θ^) Ja ( θ^≠ θ | x ) θ Ja ( θ^= θ | x ) θ
źródło