Przykład oceny maksymalnej a posteriori

11

Czytałem o oszacowaniu maksymalnego prawdopodobieństwa i oszacowaniu maksymalnego a posteriori i jak dotąd spotkałem się z konkretnymi przykładami tylko z oszacowaniem maksymalnego prawdopodobieństwa. Znalazłem kilka abstrakcyjnych przykładów maksymalnego oszacowania a posteriori, ale nic konkretnego jeszcze z liczbami: S.

Może być bardzo przytłaczający, działa tylko z abstrakcyjnymi zmiennymi i funkcjami, a aby nie zagłuszyć się w tej abstrakcyjności, od czasu do czasu miło jest odnosić rzeczy do świata rzeczywistego. Ale oczywiście to tylko moja obserwacja (i niektórych innych ludzi) :)

Czy zatem ktoś mógłby podać prosty, ale konkretny przykład oszacowania Maximum A Posteriori z liczbami? To by bardzo pomogło :)

Dziękuję Ci!

Pierwotnie opublikowałem to pytanie na MSE, ale nie mogłem tam znaleźć odpowiedzi:

/math/449386/example-of-maximum-a-posteriori-estimation

Postępowałem zgodnie z instrukcjami podanymi tutaj na temat delegowania:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

jjepsuomi
źródło

Odpowiedzi:

6

1. przykład

Typowym przypadkiem jest tagowanie w kontekście przetwarzania języka naturalnego. Zobacz tutaj na szczegółowe wyjaśnienia. Chodzi przede wszystkim o to, aby móc określić kategorię leksykalną słowa w zdaniu (czy to rzeczownik, przymiotnik, ...). Podstawową ideą jest to, że masz model swojego języka składający się z ukrytego modelu markowa ( HMM ). W tym modelu stany ukryte odpowiadają kategoriom leksykalnym, a stany obserwowane - faktycznym słowom.

Odpowiedni model graficzny ma postać,

model graficzny kanonicznego HMM

y=(y1,...,yN)x=(x1,...,xN)

Po szkoleniu celem jest znalezienie prawidłowej sekwencji kategorii leksykalnych, które odpowiadają danemu zdaniu wejściowemu. Jest to sformułowane jako znalezienie sekwencji znaczników, które są najbardziej kompatybilne / najprawdopodobniej zostały wygenerowane przez model językowy, tj

f(y)=argmaxxYp(x)p(y|x)

2. przykład

W rzeczywistości lepszym przykładem byłaby regresja. Nie tylko dlatego, że jest łatwiejszy do zrozumienia, ale także dlatego, że wyjaśnia różnice między maksymalnym prawdopodobieństwem (ML) a maksymalnym a posteriori (MAP).

t

y(x;w)=iwiϕi(x)
ϕ(x)w

t=y(x;w)+ϵ

p(t|w)=N(t|y(x;w))

E(w)=12n(tnwTϕ(xn))2

co daje dobrze znane rozwiązanie błędu najmniejszych kwadratów. Teraz ML jest wrażliwy na hałas i pod pewnymi warunkami niestabilny. MAP pozwala wybierać lepsze rozwiązania, nakładając ograniczenia na wagi. Na przykład typowym przypadkiem jest regresja kalenicy, w której wymaga się, aby wagi miały jak najmniejszą normę,

E(w)=12n(tnwTϕ(xn))2+λkwk2

N(w|0,λ1I)

w=argminwp(w;λ)p(t|w;ϕ)

Zauważ, że w MAP wagi nie są parametrami jak w ML, ale zmiennymi losowymi. Niemniej jednak zarówno ML, jak i MAP są punktowymi estymatorami (zwracają optymalny zestaw wag, a nie rozkład optymalnych wag).

jpmuc
źródło
+1 Cześć @juampa dziękuję za odpowiedź :) Ale wciąż szukam bardziej konkretnego przykładu :)
jjepsuomi
w
1
O(n3)
f(y)=argmaxxXp(x)p(y|x)