Jaka jest różnica między (dynamiczną) siecią Bayesa a HMM?

14

Czytałem, że HMM, filtry cząstek i filtry Kalmana są szczególnymi przypadkami dynamicznych sieci Bayesa. Jednak znam tylko HMM i nie widzę różnicy w stosunku do dynamicznych sieci Bayesa.

Czy ktoś mógłby wyjaśnić?

Byłoby miło, gdyby Twoja odpowiedź była podobna do następującej, ale w przypadku bayes Networks:

Ukryte modele Markowa

Ukryty model Markowa (HMM) to 5-krotna :λ=(S,O,A,B,Π)

  • S : zestaw stanów (np. „Początek fonemu”, „środek fonemu”, „koniec fonemu”)
  • O : zestaw możliwych obserwacji (sygnałów audio)
  • AR|S|×|S| : macierz stochastyczna, która daje probabilitom możliwość przejścia ze stanu do stanu .(aij)ij
  • BR|S|×|O| : macierz stochastyczna, która daje probabilitom aby uzyskać stan obserwacji .(bkl)kl
  • ΠR|S| : Początkowa dystrybucja rozpoczyna się w jednym ze stanów.

Zwykle jest wyświetlany jako ukierunkowany wykres, gdzie każdy węzeł odpowiada jednemu stanowi a prawdopodobieństwo przejścia jest oznaczone na krawędziach.sS

Ukryte modele Markowa nazywane są „ukrytymi”, ponieważ obecny stan jest ukryty. Algorytmy muszą odgadnąć to na podstawie obserwacji i samego modelu. Nazywa się je „Markov”, ponieważ dla następnego stanu liczy się tylko stan obecny.

W przypadku HMM podajesz stałą topologię (liczbę stanów, możliwe krawędzie). Następnie są 3 możliwe zadania

  • Ocena : biorąc pod uwagę HMM , jak prawdopodobne jest uzyskanie obserwacji (algorytm )λo1,,ot
  • Dekodowanie : biorąc pod uwagę HMM i obserwacje , jaka jest najbardziej prawdopodobna sekwencja stanów (algorytm Viterbiego)λo1,,ots1,,st
  • Nauka : naucz się algorytmu : Baum-Welch , który jest szczególnym przypadkiem maksymalizacji Oczekiwania.A,B,Π

Sieci Bayesa

Sieci Bayesa są skierowanymi grafami acyklicznymi (DAG) . Węzły reprezentują zmienne losowe . Dla każdego istnieje rozkład prawdopodobieństwa, który jest zależny od rodziców :G=(X,E)XXXX

P(X|parents(X))

Wydaje się, że istnieją (proszę wyjaśnić) dwa zadania:

  • Wnioskowanie : Biorąc pod uwagę niektóre zmienne, uzyskaj najbardziej prawdopodobne wartości innych zmiennych. Dokładne wnioskowanie jest trudne NP. W przybliżeniu możesz użyć MCMC.
  • Nauka : sposób uczenia się tych rozkładów zależy od dokładnego problemu ( źródła ):

    • znana struktura, w pełni obserwowalna: oszacowanie maksymalnego prawdopodobieństwa (MLE)
    • znana struktura, częściowo obserwowalna: Expectation Maximization (EM) lub Markov Chain Monte Carlo (MCMC)
    • nieznana struktura, w pełni obserwowalna: przeszukiwanie przestrzeni modelu
    • nieznana struktura, częściowo obserwowalna: EM + przeszukiwanie przestrzeni modelu

Dynamiczne sieci Bayesa

Sądzę, że dynamiczne sieci Bayesa (DBN) są również ukierunkowanymi probabilistycznymi modelami graficznymi. Wydaje się, że zmienność wynika ze zmieniającej się z czasem sieci. Wydaje mi się jednak, że jest to równoważne z kopiowaniem tylko tej samej sieci i łączeniem każdego węzła w czasie z każdym odpowiednim węzłem w czasie . Czy tak jest w przypadku?tt+1

Martin Thoma
źródło
2
1. Możesz także nauczyć się topologii HMM. 2. Dokonując wnioskowania na podstawie BN, oprócz zapytania o maksymalne prawdopodobieństwo, możesz także próbkować na podstawie rozkładów, oszacować prawdopodobieństwa lub zrobić cokolwiek innego, na co pozwala teoria prawdopodobieństwa. 3. DBN to po prostu BN kopiowane w czasie, z niektórymi (niekoniecznie wszystkimi) węzłami połączonymi z przeszłości do przyszłości. W tym sensie HMM jest prostym DBN z tylko dwoma węzłami w każdym przedziale czasowym i jednym z węzłów połączonych w czasie.
KT.
Zapytałem kogoś o to, a oni powiedzieli: „HMM są tylko specjalnymi przypadkami dynamicznych sieci Bayesa, z każdym wycinkiem czasu zawierającym jedną ukrytą zmienną, zależną od poprzedniej, dającą łańcuch Markowa, i jedną obserwację zależną od każdej ukrytej zmiennej. DBN może mieć dowolną strukturę, która ewoluuje w czasie. ”
ashley

Odpowiedzi:

1

Z podobnego pytania dotyczącego weryfikacji krzyżowej wynika odpowiedź @jerad :

HMM nie są równoważne DBN, są raczej szczególnym przypadkiem DBN, w których cały stan świata jest reprezentowany przez jedną zmienną stanu ukrytego. Inne modele w ramach DBN uogólniają podstawowy HMM, pozwalając na więcej zmiennych stanu ukrytego (wiele różnych odmian znajduje się w drugiej pracy powyżej).

Wreszcie nie, DBN nie zawsze są dyskretne. Na przykład liniowe modele stanu Gaussa (filtry Kalmana) można traktować jako HMM o ciągłej wartości, często używane do śledzenia obiektów w przestrzeni.

Polecam przejrzeć te dwa doskonałe artykuły przeglądowe:

xboard
źródło