Jaka jest praktyczna różnica między miarą Wassersteina a dywergencją Kullbacka-Leiblera ? Metryka Wassersteina jest również nazywana odległością przemieszczającego się Ziemi .
Z Wikipedii:
Metryka Wassersteina (lub Vasersteina) jest funkcją odległości zdefiniowaną między rozkładami prawdopodobieństwa w danej przestrzeni metrycznej M.
i
Rozbieżność Kullbacka – Leiblera jest miarą tego, jak jeden rozkład prawdopodobieństwa odbiega od drugiego oczekiwanego rozkładu prawdopodobieństwa.
Widziałem KL używanego w implementacjach uczenia maszynowego, ale ostatnio natknąłem się na metrykę Wassersteina. Czy istnieje dobra wskazówka, kiedy należy użyć jednego lub drugiego?
(Nie mam wystarczającej reputacji, aby utworzyć nowy tag przy pomocy Wasserstein
lub Earth mover's distance
.)
źródło
Odpowiedzi:
Rozważając zalety metryki Wassersteina w porównaniu do dywergencji KL, najbardziej oczywistą jest to, że W jest metryką, podczas gdy dywergencja KL nie jest, ponieważ KL nie jest symetryczna (tj. ogólnie) i nie spełnia nierówności trójkąta (tj. nie obejmuje ogólnie).D K L ( R | | P ) ≤ D K L ( Q | | P ) + D K L ( R | | Q )DKL(P||Q)≠DKL(Q||P) DKL(R||P)≤DKL(Q||P)+DKL(R||Q)
Jeśli chodzi o praktyczną różnicę, to jedną z najważniejszych jest to, że w przeciwieństwie do KL (i wielu innych miar) Wasserstein bierze pod uwagę przestrzeń metryczną, a to, co oznacza to w mniej abstrakcyjnych kategoriach, najlepiej najlepiej wyjaśnić na przykładzie (możesz pominąć do rysunku, kod tylko do jego wytworzenia):
Tutaj miary między rozkładami czerwonym i niebieskim są takie same dla rozbieżności KL, podczas gdy odległość Wassersteina mierzy pracę wymaganą do przeniesienia masy prawdopodobieństwa ze stanu czerwonego do stanu niebieskiego przy użyciu osi X jako „drogi”. Miara ta jest oczywiście tym większa, im bardziej oddalona jest masa prawdopodobieństwa (stąd odległość przemieszczającego się pseudonimu). To, którego chcesz użyć, zależy od obszaru zastosowania i tego, co chcesz zmierzyć. Uwaga: zamiast rozbieżności KL istnieją również inne opcje, takie jak odległość Jensen-Shannon, które są właściwymi miernikami.
źródło
Metryka Wassersteina najczęściej pojawia się w optymalnych problemach transportowych, w których celem jest przeniesienie rzeczy z danej konfiguracji do pożądanej konfiguracji przy minimalnym koszcie lub minimalnej odległości. Kullback-Leibler (KL) jest rozbieżnością (nie miarą) i bardzo często pojawia się w statystykach, uczeniu maszynowym i teorii informacji.
Ponadto miara Wassersteina nie wymaga, aby obie miary znajdowały się w tej samej przestrzeni prawdopodobieństwa, podczas gdy rozbieżność KL wymaga, aby obie miary były zdefiniowane w tej samej przestrzeni prawdopodobieństwa.
Być może najłatwiejszym miejscem do dostrzeżenia różnicy między odległością Wassersteina a dywergencją KL jest wielowymiarowy przypadek Gaussa, w którym oba rozwiązania mają formę zamkniętą. Załóżmy, że te rozkłady mają wymiar , oznacza i macierze kowariancji , dla . Te dwie formuły to:k μi Σi i=1,2
źródło
Metryka Wassersteina jest przydatna w sprawdzaniu poprawności modeli, ponieważ jej jednostkami są same odpowiedzi. Na przykład, jeśli porównujesz dwie stochastyczne reprezentacje tego samego systemu (np. Model zredukowanego rzędu), i , a odpowiedzią są jednostki przemieszczenia, miara Wassersteina jest również w jednostkach przesunięcia. Jeśli zredukujesz swoją stochastyczną reprezentację do deterministycznej, CDF każdego z rozkładów jest funkcją krokową. Metryka Wassersteina to różnica wartości.P Q
Uważam, że ta właściwość jest bardzo naturalnym rozszerzeniem, mówiącym o absolutnej różnicy między dwiema zmiennymi losowymi
źródło