Parametry maksymalnego prawdopodobieństwa odbiegają od rozkładów bocznych

11

Mam funkcję prawdopodobieństwa dla prawdopodobieństwa moich danych biorąc pod uwagę niektóre parametry modelu , które chciałbym oszacować. Zakładając płaskie priorytety parametrów, prawdopodobieństwo jest proporcjonalne do prawdopodobieństwa a posteriori. Używam metody MCMC, aby zbadać to prawdopodobieństwo.L(d|θ)dθRN

Patrząc na wynikowy zbieżny łańcuch, stwierdzam, że parametry maksymalnego prawdopodobieństwa nie są zgodne z rozkładami bocznymi. Na przykład marginalizowany rozkład prawdopodobieństwa z tyłu dla jednego z parametrów może wynosić , podczas gdy wartość w punkcie maksymalnego prawdopodobieństwa wynosi , zasadniczo jest to prawie maksymalna wartość trawersowana przez próbnik MCMC.θ0N(μ=0,σ2=1)θ0θ0ML4θ0

To jest przykład ilustrujący, a nie moje rzeczywiste wyniki. Rzeczywiste rozkłady są znacznie bardziej skomplikowane, ale niektóre parametry ML mają podobnie mało prawdopodobne wartości p w swoich odpowiednich rozkładach bocznych. Zauważ, że niektóre z moich parametrów są ograniczone (np. ); w granicach, a priori są zawsze jednolite.0θ11

Moje pytania to:

  1. Czy takie odchylenie stanowi problem sam w sobie ? Oczywiście nie oczekuję, że parametry ML będą dokładnie zbieżne z maksymami każdego z ich zmarginalizowanych tylnych rozkładów, ale intuicyjnie wydaje się, że nie należy ich również znaleźć głęboko w ogonach. Czy to odchylenie automatycznie unieważnia moje wyniki?

  2. Niezależnie od tego, czy jest to z konieczności problematyczne, czy może być objawem określonych patologii na pewnym etapie analizy danych? Na przykład, czy można sformułować jakieś ogólne stwierdzenie, czy takie odchylenie może być wywołane przez niewłaściwie zbieżny łańcuch, niewłaściwy model lub zbyt wąskie ograniczenia parametrów?

mgc70
źródło

Odpowiedzi:

15

W przypadku płaskich priorów tył jest identyczny z prawdopodobieństwem do stałej. A zatem

  1. MLE (oszacowany za pomocą optymalizatora) powinien być identyczny z MAP (maksymalna wartość a posteriori = tryb wielowymiarowy tylnej, oszacowany za pomocą MCMC). Jeśli nie otrzymasz tej samej wartości, masz problem ze swoim próbnikiem lub optymalizatorem.

  2. W przypadku złożonych modeli bardzo często tryby brzeżne różnią się od MAP. Dzieje się tak na przykład, jeśli korelacje między parametrami są nieliniowe. Jest to całkowicie w porządku, ale modów marginalnych nie należy zatem interpretować jako punktów o największej gęstości tylnej i nie należy ich porównywać z MLE.

  3. Podejrzewam jednak, że w twoim konkretnym przypadku tylny biegnie wbrew wcześniejszej granicy. W tym przypadku tył będzie silnie asymetryczny i nie ma sensu interpretować go w kategoriach średniej, sd. Z tą sytuacją nie ma zasadniczego problemu, ale w praktyce często wskazuje na błędne określenie modelu lub źle dobrane priorytety.

Florian Hartig
źródło
15

Kilka możliwych ogólnych wyjaśnień tej postrzeganej rozbieżności, zakładając oczywiście, że nie ma problemu z definicją kodu lub prawdopodobieństwa lub implementacją MCMC lub liczbą iteracji MCMC lub konwergencją maksymalizatora prawdopodobieństwa (dzięki, Jacob Socolar ):

  1. w dużych wymiarach , tylny nie koncentruje się na maksimum, ale na pewnej odległości rzędu od trybu, co oznacza, że ​​największe wartości funkcji prawdopodobieństwa napotkane przez próbnik MCMC są często znacznie poniżej wartości prawdopodobieństwo na maksimum. Na przykład, jeśli tylny jest , jest co najmniej w odległości od trybu, .NNθ|xNN(0,IN)θN22N0

  2. Podczas gdy MAP i MLE są rzeczywiście pomieszane pod płaską uprzednią, krańcowe gęstości różnych parametrów modelu mogą mieć (marginalne) tryby, które są daleko od odpowiednich MLE (tj. MAP).

  3. MAP jest pozycją w przestrzeni parametrów, w której gęstość a posteriori jest najwyższa, ale nie przekazuje żadnego wskazania masy lub objętości a posteriori dla okolic MAP. Bardzo cienki kolec nie przenosi masy tylnej. Jest to również powód, dla którego eksploracja ciała tylnego przez MCMC może napotkać trudności w identyfikacji trybu tylnego.

  4. Fakt, że większość parametrów jest ograniczona, może prowadzić do niektórych składników MAP = MLE występujących na granicy.

Patrz np. Druihlet i Marin (2007), aby znaleźć argumenty na temat nie-bayesowskiej natury estymatorów MAP. Jednym z nich jest zależność tych estymatorów od dominującej miary, innym jest brak niezmienniczości przy ponownej parametryzacji (w przeciwieństwie do MLE).

Jako przykład punktu 1 powyżej znajduje się krótki kod R.

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

która naśladuje losową ścieżkę sekwencji Metropolis-Hastings w wymiarze N = 100. Wartość prawdopodobieństwa dziennika na MAP wynosi -91,89, ale odwiedzone prawdopodobieństwa nigdy się nie zbliżają:

> range(lik)
[1] -183.9515 -126.6924

co tłumaczy fakt, że sekwencja nigdy nie zbliża się do obserwacji:

> range(dis)
[1]  69.59714 184.11525
Xi'an
źródło
3
Dodam tylko, że oprócz obawy o kod lub definicję prawdopodobieństwa lub implementację MCMC, OP może również martwić się, czy oprogramowanie użyte do uzyskania oszacowania ML zostało uwięzione w lokalnym optimum. stats.stackexchange.com/questions/384528/...
Jacob Socolar