1. przykład
Typowym przypadkiem jest tagowanie w kontekście przetwarzania języka naturalnego. Zobacz tutaj na szczegółowe wyjaśnienia. Chodzi przede wszystkim o to, aby móc określić kategorię leksykalną słowa w zdaniu (czy to rzeczownik, przymiotnik, ...). Podstawową ideą jest to, że masz model swojego języka składający się z ukrytego modelu markowa ( HMM ). W tym modelu stany ukryte odpowiadają kategoriom leksykalnym, a stany obserwowane - faktycznym słowom.
Odpowiedni model graficzny ma postać,
y =(y1 , . . . , yN.)x =(x1,..., xN.)
Po szkoleniu celem jest znalezienie prawidłowej sekwencji kategorii leksykalnych, które odpowiadają danemu zdaniu wejściowemu. Jest to sformułowane jako znalezienie sekwencji znaczników, które są najbardziej kompatybilne / najprawdopodobniej zostały wygenerowane przez model językowy, tj
fa( y) = a r g m a xx ∈Yp ( x ) p ( y | x )
2. przykład
W rzeczywistości lepszym przykładem byłaby regresja. Nie tylko dlatego, że jest łatwiejszy do zrozumienia, ale także dlatego, że wyjaśnia różnice między maksymalnym prawdopodobieństwem (ML) a maksymalnym a posteriori (MAP).
t
y( x ; w ) = ∑jawjaϕja( x )
ϕ ( x )w
t=y(x;w)+ϵ
p(t|w)=N(t|y(x;w))
E(w)=12∑n(tn−wTϕ(xn))2
co daje dobrze znane rozwiązanie błędu najmniejszych kwadratów. Teraz ML jest wrażliwy na hałas i pod pewnymi warunkami niestabilny. MAP pozwala wybierać lepsze rozwiązania, nakładając ograniczenia na wagi. Na przykład typowym przypadkiem jest regresja kalenicy, w której wymaga się, aby wagi miały jak najmniejszą normę,
E(w)=12∑n(tn−wTϕ(xn))2+λ∑kw2k
N(w|0,λ−1I)
w=argminwp(w;λ)p(t|w;ϕ)
Zauważ, że w MAP wagi nie są parametrami jak w ML, ale zmiennymi losowymi. Niemniej jednak zarówno ML, jak i MAP są punktowymi estymatorami (zwracają optymalny zestaw wag, a nie rozkład optymalnych wag).