Wariacyjne Bayes w połączeniu z Monte Carlo

10

Czytam o wariacyjnych Bayesach i, jak rozumiem, sprowadza się to do pomysłu, który przybliżasz p(zx) (gdzie z są ukrytymi zmiennymi twojego modelu i x dane obserwowane) z funkcją q(z), przyjmując, że q faktoryzuje jako qi(zi) gdzie zijest podzbiorem ukrytych zmiennych. Następnie można wykazać, że współczynnik optymalnyqi(zi) jest:

qi(zi)=lnp(x,z)z/i+const.

Gdzie nawiasy kątowe oznaczają oczekiwanie względem wszystkich ukrytych zmiennych, z wyjątkiem zi w odniesieniu do dystrybucji q(z).

Teraz to wyrażenie jest zwykle oceniane analitycznie, aby dać dokładną odpowiedź na przybliżoną wartość docelową. Przyszło mi jednak do głowy, że skoro jest to oczekiwanie, oczywistym podejściem jest przybliżenie tego oczekiwania poprzez próbkowanie. Dałoby to przybliżoną odpowiedź na przybliżoną funkcję docelową, ale stanowi bardzo prosty algorytm, być może w przypadkach, w których podejście analityczne nie jest wykonalne.

Moje pytanie brzmi: czy jest to znane podejście ? Czy to ma imię? Czy istnieją powody, dla których może nie działać tak dobrze lub może nie dać tak prostego algorytmu?

Piotr
źródło
Myślę, że większym problemem będzie zaniżenie niepewności, które zwykle powodują przybliżenia VB.
probabilityislogic

Odpowiedzi:

4

Przyznaję, że to nie jest domena, którą znam bardzo dobrze, więc weź to z odrobiną soli.

Przede wszystkim zauważ, że to, co proponujesz, nie daje tak prostego algorytmu: w celu obliczenia nowego qi, nie musimy obliczać pojedynczej oczekiwanej wartości (np. średniej lub wariancji), ale oczekiwaną wartość całej funkcji. Jest to trudne obliczeniowo i wymaga przybliżenia prawdyq przez kogoś q~ (na przykład możemy znaleźć przybliżenie histogramu)

Ale jeśli zamierzasz ograniczyć qidla małej rodziny parametrycznej lepszym pomysłem może być użycie gradientu stochastycznego w celu znalezienia najlepszych wartości parametrów (patrz: Wnioskowanie bayesowskie wariacyjne z wyszukiwaniem stochastycznym, 2012, Paisley, Blei, Jordan). Obliczany przez nich gradient jest bardzo podobny do tego, co napisałeś: próbkuje ze wszystkich przybliżeń, których obecnie nie optymalizuje.

Więc to, co proponujesz, nie jest takie proste, ale jest dość zbliżone do rzeczywistej metody, która została zaproponowana bardzo niedawno

Guillaume Dehaene
źródło