Co to jest próbkowanie według ważności?

Próbuję nauczyć się uczenia wzmacniającego, a ten temat jest dla mnie bardzo mylący. Wprowadziłem wprowadzenie do statystyki, ale po prostu nie mogłem zrozumieć tego tematu intuicyjnie.

variance simulation monte-carlo unbiased-estimator importance-sampling Tienanh Nguyen
źródło

Odpowiedzi:

Ważność próbkowania jest formą próbkowania z rozkładu innego niż rozkład odsetek, tak aby łatwiej uzyskać lepsze oszacowania parametru z rozkładu odsetek. Zazwyczaj zapewnia to oszacowanie parametru o mniejszej wariancji niż uzyskano by przez próbkowanie bezpośrednio z pierwotnego rozkładu o tej samej wielkości próbki.

Jest stosowany w różnych kontekstach. Zasadniczo pobieranie próbek z różnych rozkładów pozwala na pobranie większej liczby próbek w części interesującego rozkładu, który jest podyktowany przez aplikację (ważny region).

Jednym z przykładów może być to, że chcesz mieć próbkę, która zawiera więcej próbek z ogonów rozkładu, niż zapewniłoby to czysto losowe próbkowanie z rozkładu zainteresowania.

Artykuł w Wikipedii, który widziałem na ten temat, jest zbyt abstrakcyjny. Lepiej jest spojrzeć na różne konkretne przykłady. Zawiera jednak linki do interesujących aplikacji, takich jak Bayesian Networks.

Jednym z przykładów ważnego próbkowania w latach 40. i 50. XX wieku jest technika redukcji wariancji (forma metody Monte Carlo). Zobacz na przykład książkę Monte Carlo Methods autorstwa Hammersley and Handscomb opublikowaną jako Methuen Monograph / Chapman and Hall w 1964 r. I przedrukowaną w 1966 r., A później przez innych wydawców. Sekcja 5.4 książki dotyczy pobierania próbek ważności.

Michael R. Chernick
źródło

Aby dodać do tego: w RL ogólnie stosuje się próbkowanie według ważności w polityce: np. Próbkowanie akcji z polityki eksploracji zamiast rzeczywistej polityki, którą naprawdę chcesz próbować

DaVinci

Ta odpowiedź zaczyna się dobrze od wyjaśnienia, jakie znaczenie ma próbkowanie według ważności , ale byłem rozczarowany, że tak naprawdę nigdy nie odpowiada na pytanie, jak ważne jest próbkowanie : jak to działa?

whuber

@whuber Moim celem tutaj było wyjaśnienie pojęcia zdezorientowanemu OP i skierowanie go do literatury. Jest to duży temat i jest wykorzystywany w pozornie różnych aplikacjach. Inni mogą wyjaśnić szczegóły w prosty sposób lepiej niż ja. Wiem, że kiedy decydujesz się odpowiedzieć na pytanie, idziesz cały wieprz i zapewniasz ładne wykresy, przeglądasz szczegóły techniczne w prostym języku. Te posty prawie zawsze satysfakcjonują społeczność swoją klarownością i kompletnością i śmiem twierdzić, że przynajmniej częściowo satysfakcjonuje PO. Być może wystarczy kilka zdań z równaniami, jak sugerujesz.

Michael R. Chernick

Być może lepiej, aby społeczność udzieliła odpowiedzi na pytanie, niż tylko wskazując na inne źródła lub nawet udostępniając linki. Po prostu czułem, że to, co zrobiłem, było odpowiednie, a OP, który przyznaje się do bycia nowicjuszem w dziedzinie statystyki, powinien najpierw podjąć wysiłek.

Michael R. Chernick

Masz rację. Zastanawiam się jednak, czy byłoby to możliwe w jednym lub dwóch kolejnych zdaniach - bez matematyki, bez wykresów, prawie bez dodatkowej pracy - aby udzielić odpowiedzi na zadane pytanie. W tym przypadku w opisie należałoby podkreślić, że szacuje się oczekiwanie (a nie tylko „parametr”), a następnie może wskazać, że skoro oczekiwanie sumuje iloczyn wartości i prawdopodobieństw, to ten sam wynik uzyskuje się przez zmianę prawdopodobieństwa ( do rozkładów, z których łatwo jest pobrać próbkę) i dostosowanie wartości, aby to zrekompensować.

whuber

Ważność próbkowania jest symulacją lub metodą Monte Carlo przeznaczoną do przybliżania całek. Termin „pobieranie próbek” jest nieco mylący, ponieważ nie ma na celu dostarczenia próbek z danego rozkładu.

Intuicyjna próba ważności polega na tym, że dobrze zdefiniowana całka, taka jak można wyrazić jako oczekiwanie dla szerokiego zakresu rozkładów prawdopodobieństwa:

I = \int_{X} h (x) d x

$\mathfrak{I}=\int_\mathfrak{X} h(x)\,\text{d}x$

gdzie

oznacza gęstość rozkładu prawdopodobieństwa, a

jest określony przez

. (Zauważ, że zwykle różni się od .)Rzeczywiście, wybór

I = E_{f} [H (X)] = \int_{X} H (x) fa (x) re x

$\mathfrak{I}=\mathbb{E}_f[H(X)]=\int_\mathfrak{X} H(x)f(x)\,\text{d}x$

f

$f$

H

$H$

h

$h$

f

$f$ $H(\cdot)$ $h(\cdot)$

prowadzi do równości

pod pewnymi ograniczeniami dotyczącymi obsługi

, co oznacza

gdy

H (x) = \frac{h (x)}{f (x)}

$H(x)=\dfrac{h(x)}{f(x)}$

H (x) f (x) = h (x)

$H(x)f(x)=h(x)$

I = E_{f} [H (X)]

$\mathfrak{I}=\mathbb{E}_f[H(X)]$

-

$-$

f

$f$

f (x) > 0

$f(x)>0$

h (x) \neq 0

$h(x)\ne 0$

-

$-$ . Stąd, jak zauważył W. Huber w swoim komentarzu, nie ma jedności w przedstawianiu całki jako oczekiwania, ale przeciwnie, nieskończony wachlarz takich reprezentacji, z których niektóre są lepsze od innych, gdy są kryterium porównania są przyjęte. Na przykład Michael Chernick wspomina o wyborze

celu zmniejszenia wariancji estymatora.

f

$f$

Po zrozumieniu tej podstawowej własności, realizacja tego pomysłu polega na prawie wielkich liczb, jak w innych metodach Monte Carlo, tj. Na symulacji [za pomocą generatora pseudolosowego] próbki iid dystrybuowane oraz zastosowanie aproksymacji $(x_1,\ldots,x_n)$ $f$ które

\hat{I} = \frac{1}{n} \sum_{i = 1}^{n} H (x_{i})

$\hat{\mathfrak{I}}=\frac{1}{n} \sum_{i=1}^n H(x_i)$

jest obiektywnym estymatorem $\mathfrak{I}$
zbiega się prawie na pewno do $\mathfrak{I}$

W zależności od wyboru dystrybucji , powyższe Estymator może lub nie może mieć skończoną wariancję. Jednak zawsze istnieją opcje które pozwalają na skończoną wariancję, a nawet na dowolnie małą wariancję (aczkolwiek wybory te mogą być niedostępne w praktyce). I istnieją również wybory które sprawiają, że pobieranie próbek ważności estymatora bardzo słaba zbliżenia . Obejmuje to wszystkie wybory, w których wariancja staje się nieskończona, nawet jeśli w niedawnym artykule Chatterjee i Diaconis bada, jak porównać samplery ważności z nieskończoną wariancją. Poniższe zdjęcie pochodzi z $f$ $\hat{\mathfrak{I}}$ $f$ $f$ $\hat{\mathfrak{I}}$ ${\mathfrak{I}}$ moja blogowa dyskusja na temat tego artykułu i ilustruje słabą zbieżność nieskończonych estymatorów wariancji.

Próbkowanie istotności z rozkładem ważności rozkład docelowy rozkładu Exp (1) i rozkład Exp (1/10) oraz funkcja zainteresowania . Prawdziwa wartość całki wynosi . $h(x)=x$ $10$

[Poniżej zamieszczono reprodukcję z naszej książki Monte Carlo Statistics Methods .]

$f$

\int_{X} h (x) f (x) d x

$\int_\mathfrak{X} h(x) f(x)\,\text{d}x$

$p$ ${\mathcal{C}}(0,1)$ $2$

p = \int_{2}^{+ \infty} \frac{1}{π (1 + x^{2})} d x .

$p = \int_2^{+\infty} \; {1\over \pi(1 + x^2)} \; \text{d}x \;.$

p

$p$

{\hat{p}}_{1} = \frac{1}{m} \sum_{j = 1}^{m} I_{X_{j} > 2}

${\hat{p}}_1 = {1\over m} \; \sum_{j=1}^m \; \mathbb{I}_{X_{j} > 2}$

X_{1}, \dots, X_{m}

$X_1,\ldots,X_m$

\sim

$\sim$

C (0, 1)

$\; \mathcal{C}(0,1)$

p (1 - p) / m

$p(1-p)/m$

0.127 / m

$0.127/m$

p = 0.15

$p=0.15$

${\mathcal{C}}(0,1)$

{\hat{p}}_{2} = \frac{1}{2 m} \sum_{j = 1}^{m} I_{| X_{j} | > 2}

${\hat{p}}_2 = {1\over 2m} \; \sum_{j=1}^m \; \mathbb{I}_{|X_{j}| > 2}$

p (1 - 2 p) / 2 m

$p(1-2p)/2m$

0.052 / m

$0.052/m$

$[2,+\infty)$ $p$ $p$

p = \frac{1}{2} - \int_{0}^{2} \frac{1}{π (1 + x^{2})} d x,

$p = {1\over 2} - \int_0^2 \; {1\over \pi(1 + x^2)} \; \text{d}x \;,$

h (X) = 2 / π (1 + X^{2})

$h(X) = 2/\pi(1 + X^2)$

X \sim U_{[0, 2]}

$X \sim {\mathcal{U}}_{[0, 2]}$

p

$p$

{\hat{p}}_{3} = \frac{1}{2} - \frac{1}{m} \sum_{j = 1}^{m} h (U_{j})

${\hat{p}}_3 = {1\over 2} - {1\over m} \; \sum_{j=1}^m \; h(U_j)$

U_{j} \sim U_{[0, 2]}

$U_j \sim {\mathcal{U}}_{[0,2]}$

{\hat{p}}_{3}

${\hat{p}}_3$

(E [h^{2}] - E [h]^{2}) / m

$(\mathbb{E}[h^2] - \mathbb{E}[h]^2)/m$

0.0285 / m

$0.0285/m$

p

$p$

p = \int_{0}^{1 / 2} \frac{y^{- 2}}{π (1 + y^{- 2})} d y,

$p = \int_0^{1/2} \; {y^{-2}\over \pi(1 + y^{-2})} \; \text{d}y \;,$

\frac{1}{4} h (Y) = 1 / 2 π (1 + Y^{2})

${1\over 4} \; h(Y) = 1/2\pi(1 + Y^2)$

[0, 1 / 2]

$[0,1/2]$

p

$p$

{\hat{p}}_{4} = \frac{1}{4 m} \sum_{j = 1}^{m} h (Y_{j})

${\hat{p}}_4 = {1\over 4 m} \; \sum_{j=1}^m \; h(Y_j)$

Y_{j} \sim U_{[0, 1 / 2]}

$Y_j \sim {\mathcal{U}}_{[0,1/2]}$

{\hat{p}}_{4}

${\hat{p}}_{4}$

0.95 10^{- 4} / m

$0.95 \; 10^{-4}/m$

${\hat{p}}_1$ ${\hat p}_4$ $10^{-3}$ $\sqrt{1000} \approx 32$ $\hat p_1$ $\blacktriangleright$

Xi'an
źródło

Dziękuję @Xi za próbę zilustrowania ważnego próbkowania w sposób, który każdy może docenić, a myślę, że bardziej niż zaspokaja prośbę Billa Hubera. +1

Michael R. Chernick

Chcę zauważyć, że początkowo ten post został zawieszony i dzięki wkładowi kilku osób. Wymyśliliśmy wątek informacyjny.

Michael R. Chernick

Christian, chcę podziękować i wyrazić zaszczyt, że aktywnie dzielisz się z nami tak wspaniałym materiałem.

whuber

Chcę tylko podziękować Xi'anowi, który był na tyle miły, że dokonał kilku zmian, aby poprawić moją odpowiedź, mimo że udzielił jednego ze swoich.

Michael R. Chernick

To musi być jeden z najlepszych postów na stats.stackexchange. Dzięki za udostępnienie!

dohmatob