Dlaczego redundantna średnia parametryzacja przyspiesza Gibbs MCMC?

12

W książce Gelman & Hill (2007) (Analiza danych przy użyciu regresji i modeli wielopoziomowych / hierarchicznych) autorzy twierdzą, że uwzględnienie redundantnych parametrów średnich może przyspieszyć MCMC.

Podany przykład jest nie zagnieżdżonym modelem „symulatora lotu” (równanie 13.9):

yiN(μ+γj[i]+δk[i],σy2)γjN(0,σγ2)δkN(0,σδ2)

Zalecają ponowną parametryzację, dodając średnie parametry i w następujący sposób:μ δμγμδ

γjN(μγ,σγ2)δkN(μδ,σδ2)

Jedynym uzasadnieniem jest to, że (s. 420):

Symulacje mogą utknąć w konfiguracji, w której cały wektor (lub ) jest daleki od zera (nawet jeśli przypisano im rozkład ze średnią 0). Ostatecznie symulacje zbiegną się w prawidłowy rozkład, ale nie chcemy czekać.δγδ

W jaki sposób nadmiarowe średnie parametry pomagają rozwiązać ten problem?

Wydaje mi się, że model nie zagnieżdżony jest powolny głównie z powodu ujemnej korelacji i . (Rzeczywiście, jeśli jeden wzrośnie, drugi musi spaść, biorąc pod uwagę, że ich suma jest „ustalona” przez dane). Czy nadmiarowe średnie parametry pomagają w zmniejszeniu korelacji między i , czy czymś zupełnie innym?δ γ δγδγδ

Heisenberg
źródło
Czy szukasz intuicyjnego wglądu w ten konkretny problem (np. Czy jest to korelacja - czy korelacje - i - ), czy szukasz intuicyjnego wglądu w ogólny problem ( tzn. koncepcja hierarchicznego centrowania)? W tym drugim przypadku, czy pragnąłbyś intuicji zbliżonej do dowodu lub intuicji, która byłaby znacznie bardziej luźna i pokazuje mniej więcej, jak to działa? δ γ μ δ μγδγμδμ
Sextus Empiricus
Chciałbym intuicyjny wgląd w pojęcie hierarchicznego centrowania w ogóle (ponieważ konkretny przypadek w pytaniu jest bezpośrednio zastosowaniem hierarchicznego centrowania). Kluczową kwestią, o której chcę wiedzieć, jest: dlaczego hierarchiczne centrowanie działa, jeśli wariancja na poziomie grupy stanowi znaczną część całkowitej wariancji ? Artykuł Gelfanda i in. dowodzi tego matematycznie (tj. wyprowadza korelację i znajduje jej ograniczające zachowanie), ale bez żadnego intuicyjnego wyjaśnienia.
Heisenberg

Odpowiedzi:

4

Korelacji, której należy unikać, jest ta między a i .γ j δ kμγjδk

Zastąpienie i w modelu obliczeniowym alternatywnymi parametrami, które skupiają się wokół zmniejsza korelację.δ k μγjδkμ

Zobacz bardzo jasny opis w sekcji 25.1 „Co to jest hierarchiczne centrowanie?” w (ogólnodostępnej) książce „Szacowanie MCMC w MLwiN” Williama J. Browne'a i innych. http://www.bristol.ac.uk/cmm/software/mlwin/download/manuals.html

Sextus Empiricus
źródło
Sekcja 25.1 „Oszacowania MCMC MlwiN” opisuje tę technikę „hierarchicznego centrowania”, ale nie zawiera żadnych szczegółów poza twierdzeniem, że działa. Przeglądając jego odnośniki, odkryłem, że faktyczny dowód na tę technikę przedstawiono w artykule Efektywne parametryzacje normalnych liniowych modeli mieszanych , autorstwa Gelfanda i in., Biometrika vol. 82 wydanie 3.
Heisenberg
Z kolei w powyższym artykule wykorzystano właściwości rozkładu normalnego bez wyjaśnienia. Znalazłem dowody tych właściwości w analizie sprzężonego bayesowskiego rozkładu Gaussa przez Kevina Murphy'ego.
Heisenberg
Niestety nadal nie widziałem intuicyjnego wyjaśnienia, dlaczego ta technika działa.
Heisenberg
Jest późno, ale myślę, że ten artykuł może być tym, czego szukasz
baruuum