Czy iteracje MCMC po wypaleniu można wykorzystać do oszacowania gęstości?

10

Czy po wypaleniu możemy bezpośrednio użyć iteracji MCMC do oszacowania gęstości, na przykład poprzez wykreślenie histogramu lub oszacowanie gęstości jądra? Obawiam się, że iteracje MCMC niekoniecznie są niezależne, chociaż są co najwyżej identycznie rozmieszczone.

Co się stanie, jeśli zastosujemy przerzedzanie do iteracji MCMC? Obawiam się, że iteracje MCMC są co najwyżej nieskorelowane i jeszcze nie są niezależne.

Podstawa, której się nauczyłem, używając funkcji rozkładu empirycznego jako oszacowania funkcji rozkładu rzeczywistego, opiera się na twierdzeniu Glivenko – Cantelliego , gdzie funkcja rozkładu empirycznego jest obliczana na podstawie próbki iid. Wydawało mi się, że widzę pewne podstawy (wyniki asymptotyczne?) Do stosowania histogramów lub szacunków gęstości jądra jako szacunków gęstości, ale nie pamiętam ich.

Tim
źródło

Odpowiedzi:

9

Możesz - i ludzie - szacują gęstość na podstawie próbkowania MCMC.

Należy pamiętać, że chociaż histogramy i KDE są wygodne, przynajmniej w prostych przypadkach (takich jak próbkowanie Gibbsa) mogą być dostępne znacznie bardziej wydajne szacunki gęstości.

Jeśli weźmiemy pod uwagę w szczególności próbkowanie Gibbsa, gęstość warunkowa, z której próbkujesz, może zostać użyta zamiast samej wartości próbki w celu uzyskania uśrednionego oszacowania gęstości. Wynik wydaje się być dość gładki.

Podejście to omówiono w

Gelfand i Smith (1990), „Podejście próbkowania do obliczania gęstości krańcowej”
Journal of American Statistics Association , t. 85, nr 410, s. 398–409

(chociaż Geyer ostrzega, że ​​jeśli zależność samplera jest wystarczająco wysoka, nie zawsze zmniejsza to wariancję i daje warunki, aby to zrobić)

Podejście to jest również omówione na przykład w Robert, CP i Casella, G. (1999) Monte Carlo Statistics Methods .

Nie potrzebujesz niezależności, w rzeczywistości obliczasz średnią. Jeśli chcesz obliczyć standardowy błąd oszacowania gęstości (lub cdf), musisz uwzględnić zależność.

To samo pojęcie ma oczywiście zastosowanie do innych oczekiwań i dlatego można je wykorzystać do poprawy oszacowań wielu innych rodzajów średniej.

Glen_b - Przywróć Monikę
źródło
Dzięki! Czy masz na myśli to, że ponieważ rozkłady krańcowe są oczekiwaniami względem rozkładu wspólnego, to nie ma znaczenia użycie skorelowanych iteracji MCMC do oszacowania rozkładów krańcowych? Co się stanie, jeśli zastosuje się skorelowane iteracje do oszacowania rozkładu połączeń? Nadal ok?
Tim
Nie o to mi chodzi. Mam na myśli, że estymatory, z którymi mamy do czynienia, są średnimi wartościami i są używane do oszacowania wielkości populacji, które z kolei mogą być interpretowane jako oczekiwania na te rzeczy. Tak, można użyć losowań zależnych do oszacowania rozkładu połączeń w tym samym sensie.
Glen_b
Dlaczego możemy użyć skorelowanych iteracji do oszacowania wspólnego rozkładu? Myślę, że nie, ponieważ wspólna dystrybucja nie jest czymś oczekiwana. Należy zauważyć, że w twierdzeniu Glivenko – Cantelli empiryczny plik cdf jest obliczany na próbce iid.
Tim
Jeśli chodzi o gęstość, możesz wziąć pod uwagę coś takiego jak oszacowanie próbki opisane tutaj na przykład (i może to być traktowane jako granica histogramu z coraz wąszymi przedziałami); jest to średnia i wierzę, że jej oczekiwaniami jest gęstość. W odniesieniu do cdf możesz zastanowić się, czy możesz zrobić coś z empirycznym cdf, aby zrobić to w postaci średniej. Oba pomysły wydają się działać z próbkami ze wspólnej dystrybucji.
Glen_b
3

Wznawianie

Możesz bezpośrednio używać iteracji MCMC do wszystkiego, ponieważ średnia wartość twojego obserwowalnego będzie asymptotycznie zbliżać się do prawdziwej wartości (ponieważ jesteś po wypaleniu).

Należy jednak pamiętać, że na wariancję tej średniej wpływ mają korelacje między próbkami. Oznacza to, że jeśli próbki są skorelowane, co jest powszechne w MCMC, przechowywanie każdego pomiaru nie przyniesie żadnej realnej korzyści.

Teoretycznie powinieneś mierzyć po N krokach, gdzie N jest rzędu czasu autokorelacji obserwowalnego, który mierzysz.

Szczegółowe wyjaśnienie

xttf

xtRf=fa(x)x[a,a+Δ]xtP(x)

f

F=1Ni=1Nf(xi)

FP(x)

F=1Ni=1Nf(xi)=f(x)

co chcesz uzyskać.

F2F2

i=1Nj=1Nf(xi)f(xj)

xtj=i+ΔfR(Δ)

Podsumowując:

  • Jeśli obliczeniowo przechowywanie każdej miary nic nie kosztuje, możesz to zrobić, ale pamiętaj, że wariancji nie można obliczyć przy użyciu zwykłej formuły.

  • ττ

Jorge Leitao
źródło
n
Przerzedzanie to tylko marnotrawstwo przydatnych danych. Nie zmniejsza wariancji oszacowania. Zobacz komentarze do tego pytania: stats.stackexchange.com/a/258529/58675
DeltaIV
@DeltaIV, tak. Chodzi mi tutaj o to, że przerzedzenie czy nie, odpowiednią skalą czasową jest nadal czas autokorelacji.
Jorge Leitao