Ograniczenia MCMC / EM? MCMC zamiast EM?

9

Obecnie uczę się hierarchicznych modeli bayesowskich przy użyciu JAGS z R, a także pymc przy użyciu Pythona ( „Bayesian Methods for Hackers” ).

Mogę uzyskać intuicję z tego postu : „skończysz ze stosem liczb, które wyglądają” tak, jakby „udało ci się w jakiś sposób pobrać niezależne próbki ze skomplikowanej dystrybucji, o której chciałeś wiedzieć”. To coś, co mogę podać warunkowe prawdopodobieństwo, a następnie mogę wygenerować proces bez pamięci na podstawie prawdopodobieństwa warunkowego. Kiedy generuję proces wystarczająco długo, prawdopodobieństwo połączenia może się zbiegać. A następnie mogę wziąć stos liczb na końcu wygenerowanej sekwencji. To tak, jakbym pobierał niezależne próbki ze skomplikowanego podziału stawów. Na przykład mogę wykonać histogram, który przybliża funkcję rozkładu.

Zatem moim problemem jest to, czy muszę udowodnić, czy MCMC jest zbieżny dla określonego modelu? Jestem zmotywowany, aby to wiedzieć, ponieważ wcześniej nauczyłem się algorytmu EM dla GMM i LDA (modele graficzne). Jeśli mogę po prostu użyć algorytmu MCMC bez udowodnienia, czy jest zbieżny, to może zaoszczędzić znacznie więcej czasu niż EM. Ponieważ będę musiał obliczyć oczekiwaną funkcję prawdopodobieństwa logarytmicznego (będę musiał obliczyć prawdopodobieństwo późniejsze), a następnie zmaksymalizować oczekiwane prawdopodobieństwo logarytmiczne. Jest to najwyraźniej bardziej kłopotliwe niż MCMC (muszę tylko sformułować prawdopodobieństwo warunkowe).

Zastanawiam się również, czy funkcja prawdopodobieństwa i wcześniejsza dystrybucja są sprzężone. Czy to oznacza, że ​​MCMC musi się zbiegać? Zastanawiam się nad ograniczeniami MCMC i EM.

DQ_happy
źródło
2
MCMC jest z definicji zbieżne jako . Zamiast tego udowodnić, diagnozujesz zbieżność, aby sprawdzić, czy twój model jest zbieżny, np. Math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal/… lub people.fas.harvard.edu/~plam/teaching/methods / convergence /…n
Tim
3
EM jest szybszy, jest nie-bayesowski (nie wszyscy uwielbiają statystyki bayesowskie), aw niektórych przypadkach ma mniej problemów z identyfikowalnością (zbiega się do pojedynczej wartości maksymalnej, podczas gdy w podejściu MCMC masz cały rozkład, który może być bardziej skomplikowany niż oszacowanie punktowe ) itp.
Tim
2
EM stosuje się dla oszacowania maksymalnego prawdopodobieństwa lub maksymalnego a posteriori, ale początkowo opisano go jako algorytm ML i jest on powszechnie stosowany w podejściu ML (patrz en.wikipedia.org/wiki/... ).
Tim
1
Nawet jeśli używasz EM do oszacowania MAP, a nie ML, to jest to dla mnie nie Bayesowskie, ponieważ próbuje scharakteryzować rozkład tylny, ale tylko dostaje lokalny tryb.
Luca
1
Dla mnie używanie EM jest nie Bayesowskie, ponieważ daje punktową ocenę twoich interesujących parametrów i nie określa ilościowo pełnego rozkładu tylnego. Zarówno w przypadku EM, jak i MCMC można mieć pełny model probabilistyczny z priorytetami, ukrytymi i obserwowanymi zmiennymi losowymi, ale wnioskowanie jest inne. MCMC ma na celu scharakteryzowanie pełnego rozkładu z tyłu, podczas gdy EM nie przekazuje informacji o pełnym rozkładzie z tyłu. Dla mnie Bayesjanin to ktoś, kto wykorzystuje tylną dystrybucję do podejmowania decyzji. Może to jednak być uproszczone. Uczę się również tych rzeczy.
Luca,

Odpowiedzi:

13

EM jest techniką optymalizacji: biorąc pod uwagę prawdopodobieństwo z użytecznymi zmiennymi ukrytymi, zwraca lokalne maksimum, które może być globalnym maksimum w zależności od wartości początkowej.

MCMC jest metodą symulacyjną: biorąc pod uwagę prawdopodobieństwo z ukrytymi zmiennymi lub bez nich, a wcześniej, wytwarza próbkę, która jest w przybliżeniu rozłożona z rozkładu tylnego. Pierwsze wartości tej próbki zwykle zależą od wartości początkowej, co oznacza, że ​​często są one odrzucane jako etap wypalania (lub rozgrzewania).

Gdy próbka ta jest używana do oceny całek związanych z rozkładem bocznym [przeważająca większość przypadków], właściwości zbieżności są zasadniczo takie same jak właściwości przybliżenia Monte Carlo, na mocy twierdzenia ergodycznego.

Jeśli potrzeba więcej, to znaczy, że gwarancja (xt,,xt+T.) jest próbką z tyłu π(x|re), dostępne są niektóre techniki oceny konwergencji, na przykład w pakiecie R CODA . Teoretycznie narzędzia zapewniające konwergencję są prawdopodobnie poza twoim zasięgiem. Na przykład, doskonałe metody próbkowania lub przebudowy .

Xi'an
źródło