Jak działa sztuczka reparametryzacji VAE i dlaczego jest ważna?

57

Jak działa sztuczka reparametryzacji dla wariacyjnych autoencoderów (VAE)? Czy istnieje intuicyjne i łatwe wyjaśnienie bez uproszczenia podstawowej matematyki? A dlaczego potrzebujemy „sztuczki”?

mathematical-statistics autoencoders variational-bayes generative-models David Dao
źródło

5

Jedną częścią odpowiedzi jest zauważenie, że wszystkie dystrybucje normalne są po prostu skalowane i przetłumaczone wersje normalne (1, 0). Aby rysować z normalnego (mu, sigma), możesz rysować z normalnego (1, 0), pomnożyć przez sigma (skalę) i dodać mu (tłumaczyć).

mnich

@monk: powinno być normalne (0,1) zamiast (1,0) w prawo, w przeciwnym razie pomnożenie i przesunięcie całkowicie doprowadziłoby do szaleństwa!

Rika

@Breeze Ha! Tak, oczywiście, dzięki.

mnich

57

Po przeczytaniu slajdów warsztatowych NIPS 2015 firmy Kingma , zdałem sobie sprawę, że potrzebujemy sztuczki polegającej na ponownej parametryzacji, aby cofnąć propagację przez losowy węzeł.

Intuicyjnie, w oryginalnej formie, VAE pobierają próbkę z losowego węzła który jest aproksymowany przez parametryczny model prawdziwego tylnego. Backprop nie może przepływać przez losowy węzeł. $z$ $q(z \mid \phi, x)$

Wprowadzenie nowego parametru pozwala nam ponownie sparametryzować w sposób, który pozwala przepływowi wstecznego przepływać przez węzły deterministyczne. $\epsilon$ $z$

David Dao
źródło

3

Dlaczego

deterministyczny jest teraz po prawej?

z

$z$

bringingdownthegauss

2

Nie jest, ale nie jest „źródłem losowości” - tę rolę przejęła

.

ϵ

$\epsilon$

quant_dev

Należy pamiętać, że ta metoda była proponowana wiele razy przed 2014 r .: blog.shakirm.com/2015/10/…

quant_dev

2

Tak proste, takie intuicyjne! Świetna odpowiedź!

Serhiy

2

Niestety tak nie jest. Oryginalna forma może nadal być wstecznie propagowana, jednak z większą wariancją. Szczegóły można znaleźć w moim poście .

JP Zhang

56

Załóżmy, że mamy rozkład normalny który jest parametryzowany przez , a konkretnie . Chcemy rozwiązać poniższy problem $q$ $\theta$ $q_{\theta}(x) = N(\theta,1)$ Jest to oczywiście dość głupiutki problem, a optymalne jest oczywiste. Jednak tutaj chcemy tylko zrozumieć, w jaki sposób sztuczka reparametryzacji pomaga w obliczeniu gradientu tego celu .

{min}_{θ} E_{q} [x^{2}]

$\text{min}_{\theta} \quad E_q[x^2]$

θ

$\theta$

E_{q} [x^{2}]

$E_q[x^2]$

$\nabla_{\theta} E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = \nabla_{θ} \int q_{θ} (x) x^{2} d x = \int x^{2} \nabla_{θ} q_{θ} (x) \frac{q_{θ} (x)}{q_{θ} (x)} d x = \int q_{θ} (x) \nabla_{θ} \log q_{θ} (x) x^{2} d x = E_{q} [x^{2} \nabla_{θ} \log q_{θ} (x)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} \int q_{\theta}(x) x^2 dx = \int x^2 \nabla_{\theta} q_{\theta}(x) \frac{q_{\theta}(x)}{q_{\theta}(x)} dx = \int q_{\theta}(x) \nabla_{\theta} \log q_{\theta}(x) x^2 dx = E_q[x^2 \nabla_{\theta} \log q_{\theta}(x)]$

$q_{\theta}(x) = N(\theta,1)$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_{\theta} E_q[x^2] = E_q[x^2 (x-\theta)]$

$\theta$ $q$ $\theta$ $x$

x = θ + ϵ, ϵ \sim N (0, 1)

$x = \theta + \epsilon, \quad \epsilon \sim N(0,1)$

E_{q} [x^{2}] = E_{p} [(θ + ϵ)^{2}]

$E_q[x^2] = E_p[(\theta+\epsilon)^2]$

p

$p$

ϵ

$\epsilon$

N (0, 1)

$N(0,1)$

E_{q} [x^{2}]

$E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = \nabla_{θ} E_{p} [(θ + ϵ)^{2}] = E_{p} [2 (θ + ϵ)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} E_p[(\theta+\epsilon)^2] = E_p[2(\theta+\epsilon)]$

Oto napisany przeze mnie notatnik IPython, który analizuje wariancję tych dwóch sposobów obliczania gradientów. http://nbviewer.jupyter.org/github/gokererdogan/Notebooks/blob/master/Reparameterization%20Trick.ipynb

goker
źródło

4

Jaka jest „oczywista” theta dla pierwszego równania?

gwg

2

to 0. Jednym ze sposobów, aby to zobaczyć, jest odnotowanie, że E [x ^ 2] = E [x] ^ 2 + Var (x), czyli w tym przypadku theta ^ 2 + 1. Zatem theta = 0 minimalizuje ten cel.

goker

Czy to zależy całkowicie od problemu? Na przykład min_ \ theta E_q [| x | ^ (1/4)] może być zupełnie inaczej?

Anne van Rossum,

Co zależy od problemu? Optymalna theta? Jeśli tak, to z pewnością zależy to od problemu.

goker

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ) q_{θ} (x)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta) q_\theta(x)]$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta)]$

17

Rozsądny przykład matematyki „sztuczki reparametryzacji” podano w odpowiedzi gokera, ale pewna motywacja może być pomocna. (Nie mam uprawnień do komentowania tej odpowiedzi; dlatego tutaj jest osobna odpowiedź).

$G_\theta$

G_{θ} = \nabla_{θ} E_{x \sim q_{θ}} [\dots]

$G_\theta = \nabla_{\theta}E_{x\sim q_\theta}[\ldots]$

$E_{x\sim q_\theta}[G^{est}_\theta(x)]$

G_{θ}^{e s t} (x) = \dots \frac{1}{q_{θ} (x)} \nabla_{θ} q_{θ} (x) = \dots \nabla_{θ} \log (q_{θ} (x))

$G^{est}_\theta(x) = \ldots\frac{1}{q_\theta(x)}\nabla_{\theta}q_\theta(x) = \ldots\nabla_{\theta} \log(q_\theta(x))$

$x$ $q_\theta$ $G^{est}_\theta$ $G_\theta$ $\theta$

$G^{est}_\theta$ $G_\theta$

$G_\theta$ $x$ $x$ $q_\theta(x)$ $\frac{1}{q_\theta(x)}$ $x$ $G_\theta$ $q_\theta$ $G^{est}_\theta$ $x$ $q_\theta$ $\theta$ , która może być daleka od optymalnej (np. dowolnie wybrana wartość początkowa). To trochę jak historia pijanego, który szuka swoich kluczy w pobliżu latarni (bo tam właśnie widzi / próbkuje), a nie w pobliżu, gdzie je upuścił.

$x$ $\epsilon$ $p$ $\theta$ $G_\theta$ $p$

G_{θ} = \nabla_{θ} E_{ϵ \sim p} [J (θ, ϵ)] = E_{ϵ \sim p} [\nabla_{θ} J (θ, ϵ)]

$G_\theta = \nabla_\theta E_{\epsilon\sim p}[J(\theta,\epsilon)] = E_{\epsilon\sim p}[ \nabla_\theta J(\theta,\epsilon)]$

J (θ, ϵ)

$J(\theta,\epsilon)$

$\nabla_\theta J(\theta,\epsilon)$ $p$ $\epsilon$ $p$ $\theta$ $p$

$\nabla_\theta J(\theta,\epsilon)$ $G_\theta$ $G_\theta$ $\epsilon$ $p$ $p$ $\epsilon$ $J$

Mam nadzieję że to pomogło.

Seth Bruder
źródło

„Współczynnik 1 / qθ (x) zwiększa twoje oszacowanie, aby to uwzględnić, ale jeśli nigdy nie zobaczysz takiej wartości x, to skalowanie nie pomoże”. Czy możesz to bardziej wyjaśnić?

czxttkl,

q_{θ}

$q_\theta$

x

$x$

x

$x$

G_{θ}^{e s t} (x)

$G_{\theta}^{est}(x)$

1 / q_{θ}

$1/q_\theta$

10

Pozwól mi najpierw wyjaśnić, dlaczego potrzebujemy sztuczki reparametryzacji w VAE.

VAE ma koder i dekoder. Dekoder losowo pobiera próbki z prawdziwej tylnej Z ~ q (z∣ϕ, x) . Aby zaimplementować koder i dekoder jako sieć neuronową, musisz przesłuchać ponownie za pomocą losowego próbkowania i to jest problem, ponieważ propagacja wsteczna nie może przepływać przez losowy węzeł; aby pokonać tę przeszkodę, stosujemy sztuczkę reparametryzacji.

Teraz chodźmy oszukać. Ponieważ nasz tylny jest zwykle rozłożony, możemy przybliżać go innym rozkładem normalnym. Przybliżamy Z z normalnie rozłożonym ε .

Ale jak to ma znaczenie?

Teraz zamiast powiedzieć, że Z jest próbkowane z q (z∣ϕ, x) , możemy powiedzieć, że Z jest funkcją, która przyjmuje parametr (ε, (µ, L)), a te µ, L pochodzi z górnej sieci neuronowej (kodera) . Dlatego podczas gdy wsteczna propozycja wszystko, czego potrzebujemy, to pochodne cząstkowe wrt µ, L i ε nie mają znaczenia dla przyjmowania pochodnych.

Sherlock
źródło

Najlepsze wideo, aby zrozumieć tę koncepcję. Polecam obejrzeć cały film dla lepszego zrozumienia, ale jeśli chcesz zrozumieć tylko sztuczkę polegającą na zmianie parametrów, obejrzyj od 8 minut. youtube.com/channel/UCNIkB2IeJ-6AmZv7bQ1oBYg

Sherlock

9

Myślałem, że wyjaśnienie znalezione w kursie Stanford CS228 na probabilistycznych modelach graficznych było bardzo dobre. Można go znaleźć tutaj: https://ermongroup.github.io/cs228-notes/extras/vae/

Dla wygody / własnego zrozumienia streściłem / skopiowałem tutaj ważne części (chociaż zdecydowanie zalecam po prostu sprawdzenie oryginalnego linku).

\nabla_{ϕ} E_{z \sim q (z | x)} [f (x, z)]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)]$

Jeśli znasz estymatory funkcji punktacji (uważam, że REINFORCE to tylko specjalny przypadek tego), zauważysz, że jest to problem, który rozwiązują. Jednak estymator funkcji punktowej ma dużą zmienność, co prowadzi do trudności w uczeniu się modeli przez większość czasu.

$q_\phi (z|x)$

$\epsilon$ $p(\epsilon)$ $g_\phi(\epsilon, x)$ $q_\phi$

Jako przykład użyjmy bardzo prostego q, z którego próbkujemy.

z \sim q_{μ, σ} = N (μ, σ)

$z \sim q_{\mu, \sigma} = \mathcal{N}(\mu, \sigma)$

q

$q$

z = g_{μ, σ} (ϵ) = μ + ϵ \cdot σ

$z = g_{\mu, \sigma}(\epsilon) = \mu + \epsilon\cdot\sigma$

ϵ \sim N (0, 1)

$\epsilon \sim \mathcal{N}(0, 1)$

$p(\epsilon)$

\nabla_{ϕ} E_{z \sim q (z | x)} [f (x, z)] = E_{ϵ \sim p (ϵ)} [\nabla_{ϕ} f (x, g (ϵ, x))]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)] = \mathbb{E}_{\epsilon \sim p(\epsilon)}[\nabla_\phi f(x,g(\epsilon, x))]$

Ma to mniejszą wariancję, z powodów imo, niebanalnych. Wyjaśnienie znajduje się w części D załącznika: https://arxiv.org/pdf/1401.4082.pdf

horace on
źródło

Cześć, czy wiesz, dlaczego w implementacji dzielą std przez 2? (tj. std = torch.exp (z_var / 2)) w reparametryzacji?

Rika

4

Mamy nasz model probablistyczny. I chcesz odzyskać parametry modelu. Ograniczamy nasze zadanie do optymalizacji wariacyjnej dolnej granicy (VLB). Aby to zrobić, powinniśmy być w stanie zrobić dwie rzeczy:

obliczyć VLB
uzyskać gradient VLB

Autorzy sugerują użycie Estimatora Monte Carlo w obu przypadkach. I faktycznie wprowadzają tę sztuczkę, aby uzyskać bardziej precyzyjny estymator gradientu Monte Carlo VLB.

To tylko ulepszenie metody numerycznej.

Anton
źródło

2

Sztuczka reparametryzacji radykalnie zmniejsza wariancję estymatora MC dla gradientu. Jest to technika redukcji wariancji :

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right]$

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)] = E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w) \nabla_{ϕ} \log q_{ϕ} (z)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \nabla_\phi \log q_\phi(z)\right]$

p (x^{(i)} ∣ z^{(i)}, w)

$p\left( x^{(i)} \mid z^{(i)}, w \right)$

\log p (x^{(i)} ∣ z^{(i)}, w)

$\log p\left( x^{(i)} \mid z^{(i)}, w \right)$ jest bardzo duża, a sama wartość jest ujemna. Mielibyśmy więc dużą wariancję.

$z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)] = E_{p (ϵ^{(i)})} [\nabla_{ϕ} \log p (x^{(i)} ∣ g (ϵ^{(i)}, x^{(i)}, ϕ), w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{p(\epsilon^{(i)})} \left[ \nabla_\phi \log p\left( x^{(i)} \mid g(\epsilon^{(i)}, x^{(i)}, \phi), w \right) \right]$

$p(\epsilon^{(i)})$ $p(\epsilon^{(i)})$ $\phi$

$z^{(i)}$ $z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

Chris Elgoog
źródło

Jak działa sztuczka reparametryzacji VAE i dlaczego jest ważna?

Odpowiedzi: