Co to jest próbkowanie według ważności?

Odpowiedzi:

15

Ważność próbkowania jest formą próbkowania z rozkładu innego niż rozkład odsetek, tak aby łatwiej uzyskać lepsze oszacowania parametru z rozkładu odsetek. Zazwyczaj zapewnia to oszacowanie parametru o mniejszej wariancji niż uzyskano by przez próbkowanie bezpośrednio z pierwotnego rozkładu o tej samej wielkości próbki.

Jest stosowany w różnych kontekstach. Zasadniczo pobieranie próbek z różnych rozkładów pozwala na pobranie większej liczby próbek w części interesującego rozkładu, który jest podyktowany przez aplikację (ważny region).

Jednym z przykładów może być to, że chcesz mieć próbkę, która zawiera więcej próbek z ogonów rozkładu, niż zapewniłoby to czysto losowe próbkowanie z rozkładu zainteresowania.

Artykuł w Wikipedii, który widziałem na ten temat, jest zbyt abstrakcyjny. Lepiej jest spojrzeć na różne konkretne przykłady. Zawiera jednak linki do interesujących aplikacji, takich jak Bayesian Networks.

Jednym z przykładów ważnego próbkowania w latach 40. i 50. XX wieku jest technika redukcji wariancji (forma metody Monte Carlo). Zobacz na przykład książkę Monte Carlo Methods autorstwa Hammersley and Handscomb opublikowaną jako Methuen Monograph / Chapman and Hall w 1964 r. I przedrukowaną w 1966 r., A później przez innych wydawców. Sekcja 5.4 książki dotyczy pobierania próbek ważności.

Michael R. Chernick
źródło
2
Aby dodać do tego: w RL ogólnie stosuje się próbkowanie według ważności w polityce: np. Próbkowanie akcji z polityki eksploracji zamiast rzeczywistej polityki, którą naprawdę chcesz próbować
DaVinci
3
Ta odpowiedź zaczyna się dobrze od wyjaśnienia, jakie znaczenie ma próbkowanie według ważności , ale byłem rozczarowany, że tak naprawdę nigdy nie odpowiada na pytanie, jak ważne jest próbkowanie : jak to działa?
whuber
@whuber Moim celem tutaj było wyjaśnienie pojęcia zdezorientowanemu OP i skierowanie go do literatury. Jest to duży temat i jest wykorzystywany w pozornie różnych aplikacjach. Inni mogą wyjaśnić szczegóły w prosty sposób lepiej niż ja. Wiem, że kiedy decydujesz się odpowiedzieć na pytanie, idziesz cały wieprz i zapewniasz ładne wykresy, przeglądasz szczegóły techniczne w prostym języku. Te posty prawie zawsze satysfakcjonują społeczność swoją klarownością i kompletnością i śmiem twierdzić, że przynajmniej częściowo satysfakcjonuje PO. Być może wystarczy kilka zdań z równaniami, jak sugerujesz.
Michael R. Chernick
Być może lepiej, aby społeczność udzieliła odpowiedzi na pytanie, niż tylko wskazując na inne źródła lub nawet udostępniając linki. Po prostu czułem, że to, co zrobiłem, było odpowiednie, a OP, który przyznaje się do bycia nowicjuszem w dziedzinie statystyki, powinien najpierw podjąć wysiłek.
Michael R. Chernick
5
Masz rację. Zastanawiam się jednak, czy byłoby to możliwe w jednym lub dwóch kolejnych zdaniach - bez matematyki, bez wykresów, prawie bez dodatkowej pracy - aby udzielić odpowiedzi na zadane pytanie. W tym przypadku w opisie należałoby podkreślić, że szacuje się oczekiwanie (a nie tylko „parametr”), a następnie może wskazać, że skoro oczekiwanie sumuje iloczyn wartości i prawdopodobieństw, to ten sam wynik uzyskuje się przez zmianę prawdopodobieństwa ( do rozkładów, z których łatwo jest pobrać próbkę) i dostosowanie wartości, aby to zrekompensować.
whuber
33

Ważność próbkowania jest symulacją lub metodą Monte Carlo przeznaczoną do przybliżania całek. Termin „pobieranie próbek” jest nieco mylący, ponieważ nie ma na celu dostarczenia próbek z danego rozkładu.

Intuicyjna próba ważności polega na tym, że dobrze zdefiniowana całka, taka jak można wyrazić jako oczekiwanie dla szerokiego zakresu rozkładów prawdopodobieństwa: I = E f [ H ( X ) ] = X H ( x ) f ( x )

I=Xh(x)dx
gdzie f oznacza gęstość rozkładu prawdopodobieństwa, a H jest określony przez godzinę i f . (Zauważ, że H ( ) zwykle różni się od h ( ) .)Rzeczywiście, wybór H ( x ) = h ( x )
I=Ef[H(X)]=XH(x)fa(x)rex
faH.hfaH.()h() prowadzi do równościH(x)f(x)=h(x)iI=Ef[H(X)]-pod pewnymi ograniczeniami dotyczącymi obsługif, co oznaczaf(x)>0,gdyh(x)0-
H(x)=h(x)f(x)
H(x)f(x)=h(x)I=Ef[H(X)]ff(x)>0h(x)0. Stąd, jak zauważył W. Huber w swoim komentarzu, nie ma jedności w przedstawianiu całki jako oczekiwania, ale przeciwnie, nieskończony wachlarz takich reprezentacji, z których niektóre są lepsze od innych, gdy są kryterium porównania są przyjęte. Na przykład Michael Chernick wspomina o wyborze celu zmniejszenia wariancji estymatora.f

Po zrozumieniu tej podstawowej własności, realizacja tego pomysłu polega na prawie wielkich liczb, jak w innych metodach Monte Carlo, tj. Na symulacji [za pomocą generatora pseudolosowego] próbki iid dystrybuowane f oraz zastosowanie aproksymacji i = 1(x1,,xn)fktóre

I^=1ni=1nH(xi)
  1. jest obiektywnym estymatorem I
  2. zbiega się prawie na pewno do I

W zależności od wyboru dystrybucji , powyższe Estymator I może lub nie może mieć skończoną wariancję. Jednak zawsze istnieją opcje f, które pozwalają na skończoną wariancję, a nawet na dowolnie małą wariancję (aczkolwiek wybory te mogą być niedostępne w praktyce). I istnieją również wybory F które sprawiają, że pobieranie próbek ważności estymatora I bardzo słaba zbliżenia I . Obejmuje to wszystkie wybory, w których wariancja staje się nieskończona, nawet jeśli w niedawnym artykule Chatterjee i Diaconis bada, jak porównać samplery ważności z nieskończoną wariancją. Poniższe zdjęcie pochodzi zfI^ffI^Imoja blogowa dyskusja na temat tego artykułu i ilustruje słabą zbieżność nieskończonych estymatorów wariancji.

Importance sampling with importance distribution an Exp(1) distribution target distribution an Exp(1/10) distribution, and function of interest $h(x)=x$. The true value of the integral is $10$.

Próbkowanie istotności z rozkładem ważności rozkład docelowy rozkładu Exp (1) i rozkład Exp (1/10) oraz funkcja zainteresowania . Prawdziwa wartość całki wynosi 10 .h(x)=x10

[Poniżej zamieszczono reprodukcję z naszej książki Monte Carlo Statistics Methods .]

f

Xh(x)f(x)dx

pC(0,1)2

p=2+1π(1+x2)dx.
p
p^1=1mj=1mIXj>2
X1,,Xm C(0,1)p(1p)/m0.127/mp=0.15

C(0,1)

p^2=12mj=1mI|Xj|>2
p(12p)/2m0.052/m

[2,+)pp

p=12021π(1+x2)dx,
h(X)=2/π(1+X2)XU[0,2]p
p^3=121mj=1mh(Uj)
UjU[0,2]p^3(E[h2]E[h]2)/m0.0285/mp
p=01/2y2π(1+y2)dy,
14h(Y)=1/2π(1+Y2)[0,1/2]p
p^4=14mj=1mh(Yj)
YjU[0,1/2]p^40.95104/m

p^1p^4103100032p^1

Xi'an
źródło
5
Dziękuję @Xi za próbę zilustrowania ważnego próbkowania w sposób, który każdy może docenić, a myślę, że bardziej niż zaspokaja prośbę Billa Hubera. +1
Michael R. Chernick
2
Chcę zauważyć, że początkowo ten post został zawieszony i dzięki wkładowi kilku osób. Wymyśliliśmy wątek informacyjny.
Michael R. Chernick
5
Christian, chcę podziękować i wyrazić zaszczyt, że aktywnie dzielisz się z nami tak wspaniałym materiałem.
whuber
4
Chcę tylko podziękować Xi'anowi, który był na tyle miły, że dokonał kilku zmian, aby poprawić moją odpowiedź, mimo że udzielił jednego ze swoich.
Michael R. Chernick
3
To musi być jeden z najlepszych postów na stats.stackexchange. Dzięki za udostępnienie!
dohmatob