Tak, to jest poprawne. Zasadniczo masz
faX, Y( x , y) = fX| Y( x | y) fY( y) ,
i jak powiedziałeś, możesz próbkować z gęstości stawu. Zbierając po prostu y z próbek prowadzi do próbki z rozkład brzegowy.x
Wynika to z faktu, że ignorowanie jest podobne do integracji nad nim. Zrozummy to na przykładzie.y
Załóżmy, że = wzrost matek, a = wzrost córek. Celem jest pobranie próbki z aby zrozumieć związek między wysokościami córek i ich matek. (Zakładam, że w rodzinie jest tylko jedna córka i ograniczam populację do wszystkich córek powyżej 18 roku życia, aby zapewnić pełny wzrost).Y ( X , Y )XY( X, Y)
Wychodzisz i dostajesz reprezentatywną próbkę
( x1, y1) , … , ( XN., yN.) .
Tak więc dla każdej matki masz wzrost ich córki. Pomiędzy i powinna istnieć wyraźna zależność . Załóżmy teraz, że z twojego zestawu danych ignorujesz wszystkie dane dotyczące córek (upuść ), to co masz? Trzeba dokładnie wyżyny losowo wybranych matek, które będą czerpie z marginalną od .T T N XXYYN.X