Czy wdrożono sampler Monte Carlo / MCMC, który radzi sobie z izolowanymi lokalnymi maksimami dystrybucji tylnej?

10

Obecnie używam bayesowskiego podejścia do oszacowania parametrów modelu składającego się z kilku ODE. Ponieważ mam 15 parametrów do oszacowania, moja przestrzeń próbkowania jest 15-wymiarowa, a moje poszukiwane rozmieszczenie z tyłu wydaje się mieć wiele lokalnych maksimów, które są bardzo odizolowane przez duże obszary o bardzo niskim prawdopodobieństwie.

Prowadzi to do problemów z mieszaniem moich łańcuchów Monte Carlo, ponieważ jest bardzo mało prawdopodobne, aby jeden łańcuch „wyskoczył” z jednego lokalnego maksimum i przypadkowo uderzył w jedno z pozostałych maksimów.

Wydaje się, że jest wiele badań w tej dziedzinie, ponieważ łatwo jest znaleźć dokumenty dotyczące tego problemu (patrz poniżej), ale znalezienie faktycznej implementacji jest trudne. Znalazłem tylko pakiety związane z dynamiką molekularną, ale nie wnioskowanie bayesowskie. Czy istnieją implementacje samplerów (MC) MC, które są w stanie poradzić sobie z izolowanymi lokalnymi maksimami?

Jestem zmuszony do pracy z Matlabem, ponieważ w tym jest napisany mój model ODE, więc propozycje dotyczące Matlaba są bardzo mile widziane ;-). Jeśli jednak istnieje „aplikacja-zabójca” w innym języku, może uda mi się przekonać mojego PI do zmiany ;-).

Obecnie pracuję z próbnikiem Delayed-Rejection / Adaptive Monte Carlo napisanym przez Haario, Laine i in. , i to także jedyny próbnik, jaki udało mi się znaleźć, który jest bardziej wyrafinowany niż standardowy algorytm Metropolis-Hastings


Godne uwagi podejścia wydają się:

EDYCJA Zaktualizowano w dniu 2017-mar-07 tym, czego się nauczyłem w międzyczasie

Wiele podobnych łańcuchów o różnych punktach początkowych

Adaptacja między łańcuchami. Użyj empirycznej macierzy kowariancji zbiorczych próbek wygenerowanych przez wiele niezależnych łańcuchów, aby zaktualizować macierze kowariancji rozkładów propozycji łańcucha. (1)

Wiele łańcuchów o różnym temperowaniu

1/T.T.>1p(θre)θre obliczone jest temperowane prawdopodobieństwo tylne

p(θre)1/T.(p(reθ)p(θ))1/T.

T.T.p(θre)1/T.T.1p(θre)

Próbki z oryginalnego, nieskrępowanego rozkładu bocznego, dane próbki z ulepszonej wersji tego rozkładu można uzyskać na kilka sposobów:

  • T.T.=1

  • Small-World MCMC. Próbnik przełącza się między dwiema propozycjami. Najczęściej stosuje się rozkład propozycji z małą wariancją, rzadko stosuje się propozycję z dużą wariancją. Wybór między tymi dwiema propozycjami jest stochastyczny. Propozycje z dużą wariancją można również wyciągnąć z innego łańcucha, który wykonuje tylko bardzo duże skoki, próbkując możliwie jak najwięcej z przestrzeni próbki w przybliżeniu. (2,7)

Hamiltonian Monte Carlo (HMC)

Niewiele o tym wiem, ale wydaje się, że używa samplera No-U-Turn (NUTS) z JAGS . Zobacz ref. (8). Alex Rogozhnikov stworzył wizualny samouczek na ten temat.


Bibliografia:

(1) Craiu i in., 2009: Ucz się od swojego sąsiada: równoległy łańcuch i regionalna adaptacyjna MCMC. J Am Stat Assoc 104: 488, s. 1454–1466. http://www.jstor.org/stable/40592353

(2) Guam i in., 2012: Small World MCMC with tempering: Ergocity and spectral gap. https://arxiv.org/abs/1211.4675 ( tylko w arXiv )

(3): Brooks i in. (2011). Podręcznik Markov Chain Monte Carlo. Prasa CRC.

(4): Altekar i in. (2004): Parallel Metropolis sprzężony z łańcuchem Markova Monte Carlo dla bayesowskiego wnioskowania filogenetycznego. Bioinformatics 20 (3) 2004, s. 407–415, http://dx.doi.org/10.1093/bioinformatics/btg427

(5): Geyer CJ (1991) Markov łańcuch Monte Carlo maksymalne prawdopodobieństwo. W: Keramidas (red.), Computing Science and Statistics: Proceedings of the 23. Symposium on the Interface . Foundation Foundation, Fairfax Station, s. 156–163.

(6): Gilks ​​WR i Roberts GO (1996). Strategie poprawy MCMC. W: Gilks ​​WR, Richardson S i Spiegelhalter (red.) Markov łańcuch Monte Carlo w praktyce . Chapman & Hall, s. 1 89–114.

(7): Guan Y i in. Markov Chain Monte Carlo w małych światach. Statistics and Computing (2006) 16 (2), s. 193–202. http://dx.doi.org/10.1007/s11222-006-6966-6

(8): Hoffmann M i Gelman A (2014): The Sam-U-Turn Sampler: Adaptative Setting Lengths Path in Hamiltonian Monte Carlo. Journal of Machine Learning Research , 15, s. 1351–1381. https://arxiv.org/abs/1111.4246

akraf
źródło

Odpowiedzi:

1

Żadna z powyższych strategii nie jest szczególnie odpowiednia dla wielu optymów.

Lepszym wyborem są MCMC Differential Evolution i pochodne MCMC, takie jak DREAM. Algorytmy te działają z kilkoma łańcuchami MCMC, które są mieszane w celu generowania propozycji. Jeśli masz co najmniej jeden łańcuch w każdej optyce, będą mogli skutecznie przeskakiwać między optykami. Implementacja w języku R jest dostępna tutaj https://cran.r-project.org/web/packages/BayesianTools/index.html

Florian Hartig
źródło