Jakie zalety ma metryka Wassersteina w porównaniu do dywergencji Kullbacka-Leiblera?

25

Jaka jest praktyczna różnica między miarą Wassersteina a dywergencją Kullbacka-Leiblera ? Metryka Wassersteina jest również nazywana odległością przemieszczającego się Ziemi .

Z Wikipedii:

Metryka Wassersteina (lub Vasersteina) jest funkcją odległości zdefiniowaną między rozkładami prawdopodobieństwa w danej przestrzeni metrycznej M.

i

Rozbieżność Kullbacka – Leiblera jest miarą tego, jak jeden rozkład prawdopodobieństwa odbiega od drugiego oczekiwanego rozkładu prawdopodobieństwa.

Widziałem KL używanego w implementacjach uczenia maszynowego, ale ostatnio natknąłem się na metrykę Wassersteina. Czy istnieje dobra wskazówka, kiedy należy użyć jednego lub drugiego?

(Nie mam wystarczającej reputacji, aby utworzyć nowy tag przy pomocy Wassersteinlub Earth mover's distance.)

distributions kullback-leibler metric wasserstein Thomas Fauskanger
źródło

Gdzie natknąłem się na metrykę Wasserstein: github.com/RaRe-Technologies/movie-plots-by-genre/blob/master/…

Thomas Fauskanger

1

edytowanie postu w celu dodania tagu Wasserstein na podstawie żądania plakatu. Również dodając odpowiedź.

Lucas Roberts,

28

Rozważając zalety metryki Wassersteina w porównaniu do dywergencji KL, najbardziej oczywistą jest to, że W jest metryką, podczas gdy dywergencja KL nie jest, ponieważ KL nie jest symetryczna (tj. ogólnie) i nie spełnia nierówności trójkąta (tj. nie obejmuje ogólnie). $D_{KL}(P||Q) \neq D_{KL}(Q||P)$ $D_{KL}(R||P) \leq D_{KL}(Q||P) + D_{KL}(R||Q)$

Jeśli chodzi o praktyczną różnicę, to jedną z najważniejszych jest to, że w przeciwieństwie do KL (i wielu innych miar) Wasserstein bierze pod uwagę przestrzeń metryczną, a to, co oznacza to w mniej abstrakcyjnych kategoriach, najlepiej najlepiej wyjaśnić na przykładzie (możesz pominąć do rysunku, kod tylko do jego wytworzenia):

# define samples this way as scipy.stats.wasserstein_distance can't take probability distributions directly
sampP = [1,1,1,1,1,1,2,3,4,5]
sampQ = [1,2,3,4,5,5,5,5,5,5]
# and for scipy.stats.entropy (gives KL divergence here) we want distributions
P = np.unique(sampP, return_counts=True)[1] / len(sampP)
Q = np.unique(sampQ, return_counts=True)[1] / len(sampQ)
# compare to this sample / distribution:
sampQ2 = [1,2,2,2,2,2,2,3,4,5]
Q2 = np.unique(sampQ2, return_counts=True)[1] / len(sampQ2)

fig = plt.figure(figsize=(10,7))
fig.subplots_adjust(wspace=0.5)
plt.subplot(2,2,1)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,3)
plt.bar(np.arange(len(Q)), Q, color='b')
plt.xticks(np.arange(len(Q)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ), scipy.stats.entropy(P, Q)), fontsize=10)
plt.subplot(2,2,2)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,4)
plt.bar(np.arange(len(Q2)), Q2, color='b')
plt.xticks(np.arange(len(Q2)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ2), scipy.stats.entropy(P, Q2)), fontsize=10)
plt.show()

Tutaj miary między rozkładami czerwonym i niebieskim są takie same dla rozbieżności KL, podczas gdy odległość Wassersteina mierzy pracę wymaganą do przeniesienia masy prawdopodobieństwa ze stanu czerwonego do stanu niebieskiego przy użyciu osi X jako „drogi”. Miara ta jest oczywiście tym większa, im bardziej oddalona jest masa prawdopodobieństwa (stąd odległość przemieszczającego się pseudonimu). To, którego chcesz użyć, zależy od obszaru zastosowania i tego, co chcesz zmierzyć. Uwaga: zamiast rozbieżności KL istnieją również inne opcje, takie jak odległość Jensen-Shannon, które są właściwymi miernikami.

antike
źródło

6

Metryka Wassersteina najczęściej pojawia się w optymalnych problemach transportowych, w których celem jest przeniesienie rzeczy z danej konfiguracji do pożądanej konfiguracji przy minimalnym koszcie lub minimalnej odległości. Kullback-Leibler (KL) jest rozbieżnością (nie miarą) i bardzo często pojawia się w statystykach, uczeniu maszynowym i teorii informacji.

Ponadto miara Wassersteina nie wymaga, aby obie miary znajdowały się w tej samej przestrzeni prawdopodobieństwa, podczas gdy rozbieżność KL wymaga, aby obie miary były zdefiniowane w tej samej przestrzeni prawdopodobieństwa.

Być może najłatwiejszym miejscem do dostrzeżenia różnicy między odległością Wassersteina a dywergencją KL jest wielowymiarowy przypadek Gaussa, w którym oba rozwiązania mają formę zamkniętą. Załóżmy, że te rozkłady mają wymiar , oznacza i macierze kowariancji , dla . Te dwie formuły to: $k$ $\mu_i$ $\Sigma_i$ $i=1,2$

W_{2} (N_{0}, N_{1})^{2} = ‖ μ_{1} - μ_{2} ‖_{2}^{2} + t r (Σ_{1} + Σ_{2} - 2 (Σ_{2}^{1 / 2} Σ_{1} Σ_{2}^{1 / 2})^{1 / 2})

$W_{2} (\mathcal{N}_0, \mathcal{N}_1)^2 = \| \mu_1 - \mu_2 \|_2^2 + \mathop{\mathrm{tr}} \bigl( \Sigma_1 + \Sigma_2 - 2 \bigl( \Sigma_2^{1/2} \Sigma_1 \Sigma_2^{1/2} \bigr)^{1/2} \bigr)$ i Dla uproszczenia rozważmy i . Przy tych uproszczonych założeniach termin śledzenia w Wasserstein wynosi a termin śledzenia w rozbieżności KL będzie wynosił 0 w połączeniu z terminem a stosunek log-determinant również wynosi

D_{KL} (N_{0}, N_{1}) = \frac{1}{2} (tr (Σ_{1}^{- 1} Σ_{0}) + (μ_{1} - μ_{0})^{T} Σ_{1}^{- 1} (μ_{1} - μ_{0}) - k + \ln (\frac{det Σ_{1}}{det Σ_{0}})) .

$D_\text{KL} (\mathcal{N}_0, \mathcal{N}_1) = \frac{1}{2}\left( \operatorname{tr} \left(\Sigma_1^{-1}\Sigma_0\right) + (\mu_1 - \mu_0)^\mathsf{T} \Sigma_1^{-1}(\mu_1 - \mu_0) - k + \ln \left(\frac{\det\Sigma_1}{\det\Sigma_0}\right) \right).$

Σ_{1} = Σ_{2} = w I_{k}

$\Sigma_1=\Sigma_2=wI_k$

μ_{1} \neq μ_{2}

$\mu_1\neq\mu_2$

0

$0$

- k

$-k$

0

$0$ , więc te dwie wielkości stają się: i Zauważ, że Wasserstein odległość nie zmienia się w przypadku zmiany wariancji (słownie podejmują jak dużej ilości w macierzy kowariancji), natomiast rozbieżności KL robi. Jest tak, ponieważ odległość Wassersteina jest funkcją odległości w połączonych przestrzeniach podporowych dwóch miar prawdopodobieństwa. Natomiast dywergencja KL jest dywergencją i ta dywergencja zmienia się w zależności od przestrzeni informacyjnej (stosunek sygnału do szumu) rozkładów.

W_{2} (N_{0}, N_{1})^{2} = ‖ μ_{1} - μ_{2} ‖_{2}^{2}

$W_{2} (\mathcal{N}_0, \mathcal{N}_1)^2 = \| \mu_1 - \mu_2 \|_2^2$

D_{KL} (N_{0}, N_{1}) = (μ_{1} - μ_{0})^{T} Σ_{1}^{- 1} (μ_{1} - μ_{0}) .

$D_\text{KL} (\mathcal{N}_0, \mathcal{N}_1) = (\mu_1 - \mu_0)^\mathsf{T} \Sigma_1^{-1}(\mu_1 - \mu_0).$

w

$w$

Lucas Roberts
źródło

1

Metryka Wassersteina jest przydatna w sprawdzaniu poprawności modeli, ponieważ jej jednostkami są same odpowiedzi. Na przykład, jeśli porównujesz dwie stochastyczne reprezentacje tego samego systemu (np. Model zredukowanego rzędu), i , a odpowiedzią są jednostki przemieszczenia, miara Wassersteina jest również w jednostkach przesunięcia. Jeśli zredukujesz swoją stochastyczną reprezentację do deterministycznej, CDF każdego z rozkładów jest funkcją krokową. Metryka Wassersteina to różnica wartości. $P$ $Q$

Uważam, że ta właściwość jest bardzo naturalnym rozszerzeniem, mówiącym o absolutnej różnicy między dwiema zmiennymi losowymi

Justin Winokur
źródło

Jakie zalety ma metryka Wassersteina w porównaniu do dywergencji Kullbacka-Leiblera?

Odpowiedzi: