Obecnie uczę się hierarchicznych modeli bayesowskich przy użyciu JAGS z R, a także pymc przy użyciu Pythona ( „Bayesian Methods for Hackers” ).
Mogę uzyskać intuicję z tego postu : „skończysz ze stosem liczb, które wyglądają” tak, jakby „udało ci się w jakiś sposób pobrać niezależne próbki ze skomplikowanej dystrybucji, o której chciałeś wiedzieć”. To coś, co mogę podać warunkowe prawdopodobieństwo, a następnie mogę wygenerować proces bez pamięci na podstawie prawdopodobieństwa warunkowego. Kiedy generuję proces wystarczająco długo, prawdopodobieństwo połączenia może się zbiegać. A następnie mogę wziąć stos liczb na końcu wygenerowanej sekwencji. To tak, jakbym pobierał niezależne próbki ze skomplikowanego podziału stawów. Na przykład mogę wykonać histogram, który przybliża funkcję rozkładu.
Zatem moim problemem jest to, czy muszę udowodnić, czy MCMC jest zbieżny dla określonego modelu? Jestem zmotywowany, aby to wiedzieć, ponieważ wcześniej nauczyłem się algorytmu EM dla GMM i LDA (modele graficzne). Jeśli mogę po prostu użyć algorytmu MCMC bez udowodnienia, czy jest zbieżny, to może zaoszczędzić znacznie więcej czasu niż EM. Ponieważ będę musiał obliczyć oczekiwaną funkcję prawdopodobieństwa logarytmicznego (będę musiał obliczyć prawdopodobieństwo późniejsze), a następnie zmaksymalizować oczekiwane prawdopodobieństwo logarytmiczne. Jest to najwyraźniej bardziej kłopotliwe niż MCMC (muszę tylko sformułować prawdopodobieństwo warunkowe).
Zastanawiam się również, czy funkcja prawdopodobieństwa i wcześniejsza dystrybucja są sprzężone. Czy to oznacza, że MCMC musi się zbiegać? Zastanawiam się nad ograniczeniami MCMC i EM.
źródło
Odpowiedzi:
EM jest techniką optymalizacji: biorąc pod uwagę prawdopodobieństwo z użytecznymi zmiennymi ukrytymi, zwraca lokalne maksimum, które może być globalnym maksimum w zależności od wartości początkowej.
MCMC jest metodą symulacyjną: biorąc pod uwagę prawdopodobieństwo z ukrytymi zmiennymi lub bez nich, a wcześniej, wytwarza próbkę, która jest w przybliżeniu rozłożona z rozkładu tylnego. Pierwsze wartości tej próbki zwykle zależą od wartości początkowej, co oznacza, że często są one odrzucane jako etap wypalania (lub rozgrzewania).
Gdy próbka ta jest używana do oceny całek związanych z rozkładem bocznym [przeważająca większość przypadków], właściwości zbieżności są zasadniczo takie same jak właściwości przybliżenia Monte Carlo, na mocy twierdzenia ergodycznego.
Jeśli potrzeba więcej, to znaczy, że gwarancja(xt, ... ,xt + T) jest próbką z tyłu π( x | D ) , dostępne są niektóre techniki oceny konwergencji, na przykład w pakiecie R CODA . Teoretycznie narzędzia zapewniające konwergencję są prawdopodobnie poza twoim zasięgiem. Na przykład, doskonałe metody próbkowania lub przebudowy .
źródło