Próbkowanie z rozkładu krańcowego przy użyciu rozkładu warunkowego?

12

Chcę próbkować z gęstości jednowymiarowej ale znam tylko związek:fX

fX(x)=fX|Y(x|y)fY(y)dy.

Chcę uniknąć używania MCMC (bezpośrednio na reprezentacji całkowej), a ponieważ i są łatwe do próbkowania, myślałem o użyciu następującego próbnika :f Y ( y )fX|Y(x|y)fY(y)

  1. Dla .j=1,,N
  2. Próbka .yjfY
  3. Próbka .xjfX|Y(|yj)

Następnie skończę z parami i wezmę tylko marginalne próbki . Czy to jest poprawne?( x 1 , , x N )(x1,y1),...,(xN,yN)(x1,,xN)

Pręt
źródło

Odpowiedzi:

10

Tak, to jest poprawne. Zasadniczo masz

fX,Y(x,y)=fX|Y(x|y)fY(y),

i jak powiedziałeś, możesz próbkować z gęstości stawu. Zbierając po prostu y z próbek prowadzi do próbki z rozkład brzegowy.x

Wynika to z faktu, że ignorowanie jest podobne do integracji nad nim. Zrozummy to na przykładzie.y

Załóżmy, że = wzrost matek, a = wzrost córek. Celem jest pobranie próbki z aby zrozumieć związek między wysokościami córek i ich matek. (Zakładam, że w rodzinie jest tylko jedna córka i ograniczam populację do wszystkich córek powyżej 18 roku życia, aby zapewnić pełny wzrost).Y ( X , Y )XY(X,Y)

Wychodzisz i dostajesz reprezentatywną próbkę

(x1,y1),,(xN,yN).

Tak więc dla każdej matki masz wzrost ich córki. Pomiędzy i powinna istnieć wyraźna zależność . Załóżmy teraz, że z twojego zestawu danych ignorujesz wszystkie dane dotyczące córek (upuść ), to co masz? Trzeba dokładnie wyżyny losowo wybranych matek, które będą czerpie z marginalną od .T T N XXYYNX

Greenparker
źródło
Dziękuję za to, jest to pomocne. Czy wiesz, czy tę strategię próbkowania można powiązać z próbkowaniem Gibbsa w celu formalnego uzasadnienia?
Rod
1
yxyy
1
Greenparker, ale czy istnieje formalny dowód na to twierdzenie, tzn. Rozważenie tylko części próbki pobranej ze stawu daje próbkę marginalną?
Stary człowiek na morzu.
Pobieranie próbek „X = matek” przez pobieranie próbek (X, Y) i pobranie X faktycznie daje próbki „matek, które mają dokładnie jedną w pełni dorosłą córkę”, co nie jest tym samym co „matki”. Ale nawet jeśli zmienimy twój przykład, aby powiedzieć, że jesteś zainteresowany „X = matkami, które mają dokładnie jedną w pełni dorosłą córkę”, uzyskanie wartości X przez próbkowanie (X, Y) wypacza twoją próbkę na podstawie rozkładu Y. p (v ) = ∑ (u we wsparciu (U)) (p (u, v))) = ∑ (u we wsparciu (U)) (p (v | u) * p (u))) = (1 / sizeSize ( u)) * ∑ (u w próbce (U)) (p (v | u))), ponieważ każda wartość u pojawia się w próbce z prawdopodobieństwem p (u) - więc należy uśrednić p (v | u) losowanie
radumanolescu