Wyniki szacunków Monte Carlo uzyskane na podstawie próbkowania istotności

13

Przez ostatni rok pracowałem nad dość istotnym pobieraniem próbek i mam kilka otwartych pytań, z którymi miałem nadzieję uzyskać pomoc.

Moje praktyczne doświadczenie z ważnymi schematami pobierania próbek było takie, że czasami mogą one generować fantastyczne oszacowania niskiej wariancji i niskiego obciążenia. Częściej jednak mają tendencję do generowania szacunkowych błędów, które mają niską wariancję próbki, ale bardzo wysoką stronniczość.

Zastanawiam się, czy ktokolwiek może dokładnie wyjaśnić, jakie rodzaje czynników wpływają na ważność szacunkowych prób doboru? W szczególności zastanawiam się:

1) Czy gwarantowane ważność oszacowań próbkowania jest zbieżne z prawidłowym wynikiem, gdy rozkład odchylania ma takie samo wsparcie jak rozkład pierwotny? Jeśli tak, dlaczego wydaje się, że zajmuje to tak dużo czasu w praktyce?

2) Czy istnieje wymierny związek między błędem w oszacowaniu uzyskanym w wyniku próbkowania istotności a „jakością” rozkładu odchylenia (tj. W jakim stopniu odpowiada rozkładowi wariancji zerowej)

3) Częściowo oparty na 1) i 2) - czy istnieje sposób na określenie ilościowe „ile” trzeba wiedzieć o rozkładzie, zanim lepiej było użyć ważnego projektu próbkowania niż prostej metody Monte Carlo.

Berk U.
źródło

Odpowiedzi:

8

Ważność próbkowania ma dokładnie taką samą walidację jak podstawowe podejście Monte Carlo. U jego podstaw leży Monte Carlo . Rzeczywiście, jest to po prostu zmiana miary odniesienia, przejście od do Zatem zbieżność jest gwarantowana przez prawo wielkich liczb w obu przypadkach, tj. czy symulujesz czy z . Ponadto, jeśli termin jest skończony, obowiązuje również twierdzenie o limicie centralnym i prędkość konwergencji to h ( x ) f ( x )

h(x)f(x)dx
fgh2(x)f2(x)
h(x)f(x)g(x)g(x)dx
fgO(1/
h2(x)f2(x)g(x)dx
O(1/O(1/n). Jeśli „trwa to tak długo w praktyce”, to dlatego, że powyższy współczynnik wariancji w CLT może być dość duży. Ale, i nalegam, prędkość jest taka sama, jak w przypadku zwykłego Monte Carlo, .O(1/n)

Jakość ważnego rozkładu próbkowania jest zatem bezpośrednio związana z powyższym współczynnikiem wariancji, który wynosi zero dla „rozkładu zerowej wariancji” proporcjonalnego do .|h(x)|f(x)

Xi'an
źródło
2
Podejrzewam, biorąc pod uwagę, że OP zgłasza estymatory małej wariancji, które są stronnicze, ale wydają się mieć małą wariancję, że może on pytać o samonormalizowaną próbkę ważności. Zobacz rant Radforda Neala dotyczący estymatora średniej harmonicznej dla dobrego przykładu, który bierze wartość, która byłaby istotnym oszacowaniem próbkowania z wariancją 0, i zwraca bzdury. Nie jestem pewien, czy tak się nie dzieje w przypadku próbkowania o regularnym znaczeniu, ale z pewnością jest to rzadkie.
deinst
Nawet jeśli nie byłby to zamiarem PO, byłbym zainteresowany kilkoma wskazówkami, jak dowiedzieć się, kiedy samonormalizacja pójdzie strasznie źle.
deinst
@deinst Nie wiedziałem o procedurze samonormalizacji i jej pułapkach, więc dziękuję za to! W każdym razie myślę, że problemy mogą mieć związek z właściwościami mojego schematu SI, dlatego chciałbym zbadać ten pomysł, jeśli ktoś z was ma pomysły.
Berk U.
@deinst Schemat IS, którego używam, jest zaprojektowany do pracy bez dostępnego rozkładu próbkowania . Schemat najpierw wykorzystuje procedurę MCMC do symulacji punktów z zerowego rozkładu wariancji . Następnie używa szacowania gęstości jądra na aby utworzyć . Mając w dłoni, mogę następnie próbkować nowych punktów mojego oszacowania IS jako $ \ sum {h (y_i) f (y_i) / hat {g (y_i)} $M x 1 . . x M g ( x ) = h ( x ) f ( x ) /h ( x ) f ( x ) d x x 1 . . x M ^ g ( x ) ^ g ( x ) N y 1 . . . y N.g(x)Mx1..xMg(x)=h(x)f(x)/h(x)f(x)dxx1..xMg(x)^g(x)^Ny1...yN
Berk U.
Korzystanie z oszacowania nieparametrycznego wprowadza zmienność wyższego rzędu niż zmienność Monte Carlo, więc nie radziłbym jej.
Xi'an
7

fg

δ=h(x)f(x)dx
x1,,xng(x)
δ^=i=1nh(x)f(x)/g(x)i=1nf(x)/g(x).
X/Yω(X)=f(x)/g(X)
Eg(δ^)δ+δVarg(ω(X))Covg(ω(X),h(X)ω(X))n
Varg(δ^)Varg(h(X)ω(X))2δCovg(ω(X),h(X)ω(X))+δ2Varg(ω(X))n.

Varg(ω(X))Covg(ω(X),h(X)ω(X))

deinst
źródło
X/YG
@BerkUstun Wielka litera G to literówka dla małej, którą natychmiast naprawię. X / Y to tylko ogólny stosunek zmiennych losowych. IIRC to wszystko jest wyjaśnione w Monte Carlo książki Liu (coś z naukowego w tytule.)
deinst
@deinst: Great point! Rzeczywiście, właściwości samonormalizowanych wersji są całkiem różne od właściwości obiektywnego estymatora prób istotności. Teoretycznie do oszacowania mianownika potrzebny byłby osobny próbnik ważności.
Xi'an