Conditinal Random Fields (CRF) to specjalny przypadek Markov Random Fields (MRF).
1.5.4 Warunkowe pole losowe
Warunkowe pole losowe (CRF) jest formą MRF, która definiuje a posterior dla zmiennych x podanych danych z, tak jak w przypadku ukrytego MRF powyżej. Jednak w przeciwieństwie do ukrytego MRF, rozkład na czynniki w rozkładzie danych P (x | z) i wcześniejszym P (x) nie jest wyraźny [288]. Umożliwia to zapisywanie złożonych zależności x na z bezpośrednio w rozkładzie bocznym, bez wyraźnego podziału na czynniki. (Biorąc pod uwagę P (x | z), takie faktoryzacje zawsze istnieją, jednak - nieskończenie wiele z nich w rzeczywistości - więc nie ma sugestii, że CRF jest bardziej ogólny niż ukryty MRF, tylko że wygodniej jest sobie z nim poradzić .)
Źródło: Blake, Kohli i Rother: Losowe pola Markowa do przetwarzania obrazu i obrazu. 2011 r.
Warunkowe pole losowe lub CRF (Lafferty i in. 2001), czasem dyskryminacyjne pole losowe (Kumar i Hebert 2003), jest tylko wersją MRF, w której wszystkie potencjały kliki są uwarunkowane cechami wejściowymi: [...]
Przewaga CRF nad MRF jest analogiczna do przewagi dyskryminującego klasyfikatora nad generatywnym klasyfikatorem (patrz rozdział 8.6), a mianowicie nie musimy „marnować zasobów” na modelowanie rzeczy, które zawsze obserwujemy. [...]
Wadą CRF w porównaniu z MRF jest to, że wymagają one oznakowanych danych szkoleniowych i wolniej trenują [...]
MRF vs sieci Bayesa : Mówiąc bezprecedensowo (ale normalnie) , istnieją dwa rodzaje modeli graficznych: niekierowane modele graficzne i ukierunkowane modele graficzne (jeszcze jeden typ, na przykład wykres Tannera). Pierwszy z nich znany jest również jako Markov Random Fields / Markov network, a później Bayes net / Bayesian network. (Czasami założenia niezależności w obu przypadkach można przedstawić za pomocą wykresów akordowych)
Markov implikuje sposób, w jaki rozkłada na czynniki pierwsze, a pole losowe oznacza określony rozkład między tymi zdefiniowanymi przez model bezkierunkowy.
CRF ∈ MRF : Gdy obserwuje się niektóre zmienne, możemy zastosować tę samą reprezentację grafu niekierowanego (jak grafy niekierowane) i parametryzację, aby zakodować rozkład warunkowy P(Y|X) gdzie Y jest zbiorem zmiennych docelowych, a X jest (rozłączny ) zestaw obserwowanych zmiennych.
I jedyna różnica polega na tym, że dla standardowej sieci Markowa termin normalizacyjny sumuje się przez X i Y, ale w przypadku CRF termin sumuje się tylko przez Y.
Porównajmy wnioskowanie warunkowe w ramach MRF z modelowaniem za pomocą CRF, opierając się na definicjach po drodze, a następnie odnieś się do pierwotnego pytania.
MRF
G
G
GViVjViVjBiP({Vi})G
Wnioskowanie warunkowe w ramach MRF
Ponieważ MRF reprezentuje wspólny rozkład wielu zmiennych, który jest zgodny z ograniczeniami Markowa, możemy obliczyć warunkowe rozkłady prawdopodobieństwa, biorąc pod uwagę zaobserwowane wartości niektórych zmiennych.
Na przykład, jeśli mam wspólny rozkład między czterema zmiennymi losowymi: IsRaining, SprinklerOn, SidewalkWet i GrassWet, to w poniedziałek mógłbym chcieć wywnioskować rozkład prawdopodobieństwa połączenia dla IsRaining i SprinklerOn, biorąc pod uwagę, że zaobserwowałem SidewalkWet = False i GrassWet = Prawdziwe. We wtorek mógłbym chcieć wywnioskować wspólny rozkład prawdopodobieństwa dla IsRaining i SprinklerOn, biorąc pod uwagę, że zaobserwowałem SidewalkWet = True i GrassWet = True.
Innymi słowy, możemy użyć tego samego modelu MRF do wnioskowania w tych dwóch różnych sytuacjach, ale nie powiedzielibyśmy, że zmieniliśmy model. W rzeczywistości, chociaż obserwowaliśmy SidewalkWet i GrassWet w obu opisanych tutaj przypadkach, sam MRF nie ma „obserwowanych zmiennych” per se - wszystkie zmienne mają ten sam status w oczach MRF, więc MRF modeluje również, np. wspólna dystrybucja SidewalkWet i GrassWet.
CRF
G
G{Xi}ni=1{Yi}mi=1
P({Yi}mi=1|{Xi}ni=1)G
Różnica
G
wyznacza podzbiór zmiennych jako „obserwowane”
definiuje jedynie rozkład warunkowy dla nieobserwowanych danych zmiennych; nie modeluje prawdopodobieństwa zaobserwowanych zmiennych (jeśli rozkłady wyrażone są parametrami, jest to często postrzegane jako korzyść, ponieważ parametry nie są marnowane na wyjaśnianie prawdopodobieństwa rzeczy, które zawsze będą znane)
G
{Xi}GG′{Yi}{Yi}{Xi}{Yi}{Xi}
Przykład
YiX1,X2,...Xn−1Xn
G{Xi}{Yi}{Xi}
Wniosek
GGGGGG
Oprócz potencjalnych oszczędności parametrów modelu, zwiększonej ekspresji modelu warunkowego i zachowania wydajności wnioskowania, ostatnią ważną kwestią dotyczącą receptury CRF jest to, że w przypadku modeli dyskretnych (i dużej części modeli niedyskretnych), pomimo ekspresyjność rodziny CRF, prawdopodobieństwo logarytmiczne można wyrazić jako funkcję wypukłą parametrów funkcji, umożliwiającą globalną optymalizację z opadaniem gradientu.
Odpowiedzi:
Ok, sam znalazłem odpowiedź:
Conditinal Random Fields (CRF) to specjalny przypadek Markov Random Fields (MRF).
Źródło: Blake, Kohli i Rother: Losowe pola Markowa do przetwarzania obrazu i obrazu. 2011 r.
Źródło: Kevin P. Murphy: Uczenie maszynowe: perspektywa probabilistyczna
Odpowiadając na moje pytanie:
Tak. Naprawianie wartości jest takie samo, jak warunkowanie ich. Należy jednak pamiętać, że istnieją również różnice w treningu.
Bardzo mi pomogło obejrzenie wielu wykładów na temat PGM (probabilistycznych modeli graficznych) na kursach.
źródło
MRF vs sieci Bayesa : Mówiąc bezprecedensowo (ale normalnie) , istnieją dwa rodzaje modeli graficznych: niekierowane modele graficzne i ukierunkowane modele graficzne (jeszcze jeden typ, na przykład wykres Tannera). Pierwszy z nich znany jest również jako Markov Random Fields / Markov network, a później Bayes net / Bayesian network. (Czasami założenia niezależności w obu przypadkach można przedstawić za pomocą wykresów akordowych)
Markov implikuje sposób, w jaki rozkłada na czynniki pierwsze, a pole losowe oznacza określony rozkład między tymi zdefiniowanymi przez model bezkierunkowy.
CRF∈ MRF : Gdy obserwuje się niektóre zmienne, możemy zastosować tę samą reprezentację grafu niekierowanego (jak grafy niekierowane) i parametryzację, aby zakodować rozkład warunkowy P(Y|X) gdzie Y jest zbiorem zmiennych docelowych, a X jest (rozłączny ) zestaw obserwowanych zmiennych.
I jedyna różnica polega na tym, że dla standardowej sieci Markowa termin normalizacyjny sumuje się przez X i Y, ale w przypadku CRF termin sumuje się tylko przez Y.
Odniesienie:
źródło
Porównajmy wnioskowanie warunkowe w ramach MRF z modelowaniem za pomocą CRF, opierając się na definicjach po drodze, a następnie odnieś się do pierwotnego pytania.
MRF
Wnioskowanie warunkowe w ramach MRF
Ponieważ MRF reprezentuje wspólny rozkład wielu zmiennych, który jest zgodny z ograniczeniami Markowa, możemy obliczyć warunkowe rozkłady prawdopodobieństwa, biorąc pod uwagę zaobserwowane wartości niektórych zmiennych.
Na przykład, jeśli mam wspólny rozkład między czterema zmiennymi losowymi: IsRaining, SprinklerOn, SidewalkWet i GrassWet, to w poniedziałek mógłbym chcieć wywnioskować rozkład prawdopodobieństwa połączenia dla IsRaining i SprinklerOn, biorąc pod uwagę, że zaobserwowałem SidewalkWet = False i GrassWet = Prawdziwe. We wtorek mógłbym chcieć wywnioskować wspólny rozkład prawdopodobieństwa dla IsRaining i SprinklerOn, biorąc pod uwagę, że zaobserwowałem SidewalkWet = True i GrassWet = True.
Innymi słowy, możemy użyć tego samego modelu MRF do wnioskowania w tych dwóch różnych sytuacjach, ale nie powiedzielibyśmy, że zmieniliśmy model. W rzeczywistości, chociaż obserwowaliśmy SidewalkWet i GrassWet w obu opisanych tutaj przypadkach, sam MRF nie ma „obserwowanych zmiennych” per se - wszystkie zmienne mają ten sam status w oczach MRF, więc MRF modeluje również, np. wspólna dystrybucja SidewalkWet i GrassWet.
CRF
Różnica
wyznacza podzbiór zmiennych jako „obserwowane”
definiuje jedynie rozkład warunkowy dla nieobserwowanych danych zmiennych; nie modeluje prawdopodobieństwa zaobserwowanych zmiennych (jeśli rozkłady wyrażone są parametrami, jest to często postrzegane jako korzyść, ponieważ parametry nie są marnowane na wyjaśnianie prawdopodobieństwa rzeczy, które zawsze będą znane)
Przykład
Wniosek
Oprócz potencjalnych oszczędności parametrów modelu, zwiększonej ekspresji modelu warunkowego i zachowania wydajności wnioskowania, ostatnią ważną kwestią dotyczącą receptury CRF jest to, że w przypadku modeli dyskretnych (i dużej części modeli niedyskretnych), pomimo ekspresyjność rodziny CRF, prawdopodobieństwo logarytmiczne można wyrazić jako funkcję wypukłą parametrów funkcji, umożliwiającą globalną optymalizację z opadaniem gradientu.
Zobacz także: oryginalny papier CRF i ten samouczek
źródło