Maksymalna średnia rozbieżność (rozkład odległości)

15

Mam dwa zestawy danych (dane źródłowe i docelowe), które mają różny rozkład. Korzystam z MMD - czyli nieparametrycznego rozkładu odległości - aby obliczyć rozkład krańcowy między danymi źródłowym i docelowym.

dane źródłowe, Xs

dane docelowe, Xt

adaptacja Matryca A

* Dane prognozowane, Zs = A '* Xs i Zt = A' Xt

* MMD => Odległość (P (Xs), P (Xt)) = | średnia (A'Xs) - średnia (A ' Xt) |

Oznacza to: odległość rozkładu między danymi źródłowymi i docelowymi w pierwotnej przestrzeni jest równa odległości między środkami rzutowanych danych źródłowych i docelowych w przestrzeni osadzonej.

Mam pytanie dotyczące koncepcji MMD.

We wzorze MMD: Dlaczego przy obliczaniu odległości w utajonej przestrzeni możemy zmierzyć odległość rozkładu w pierwotnej przestrzeni?

Dzięki

Mahsa
źródło
Nie zadałeś jeszcze pytania: powiedziałeś nam tylko, że się zdezorientowałeś!
whuber

Odpowiedzi:

44

Może to pomóc w nieco szerszym omówieniu MMD.

Ogólnie rzecz biorąc, MMD jest zdefiniowane przez ideę reprezentowania odległości między rozkładami jako odległości między średnimi osadzeniami cech. Oznacza to, że mamy rozkładów i na zbiorze . MMD jest zdefiniowane przez mapę funkcji , gdzie to tak zwana przestrzeń Hilberta w jądrze odtwarzającym. Ogólnie rzecz biorąc, MMD to PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Jako przykład możemy podać i . W takim przypadku: więc ten MMD to tylko odległość między średnimi dwóch rozkładów. Dopasowywanie takich rozkładów będzie odpowiadać ich środkom, choć mogą różnić się wariancją lub innymi sposobami.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Twój przypadek jest nieco inny: mamy i , z , gdzie jest macierzą . Mamy więc Ta MMD jest różnicą między dwoma różnymi rzutami średniej. Jeśli w innym przypadku lub mapowanie nie jest odwracalne,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA niż poprzedni: nie rozróżnia niektórych dystrybucji, które robi poprzedni.

Możesz także budować większe odległości. Na przykład, jeśli i użyjesz , wtedy MMD staje się i potrafi rozróżniać nie tylko różne środki, ale także różne wariancje.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

I możesz stać się znacznie silniejszy: jeśli na ogólne jądro odtwarzające przestrzeń Hilberta, możesz zastosować sztuczkę jądra, aby obliczyć MMD, i okazuje się, że wiele jąder, w tym jądro Gaussa, prowadzi do MMD równa zero, jeśli tylko rozkłady są identyczne.φ

W szczególności, pozwalając , otrzymujesz które można bezpośrednio oszacować za pomocą próbek.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Aktualizacja: oto, skąd pochodzi „maksimum” w nazwie.

Mapa funkcji zamienia się w przestrzeń Hilberta w jądrze odtwarzającym. Są to przestrzenie funkcji i spełniają kluczową właściwość (zwaną właściwością odtwarzania ): dla dowolnego .φ:XHf,φ(x)H=f(x)fH

W najprostszym przykładzie z , widzimy każdy jako funkcję odpowiadającą niektórym przez . Wtedy właściwość odtwarzania powinna mieć sens.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

W bardziej skomplikowanych ustawieniach, takich jak jądro Gaussa, jest znacznie bardziej skomplikowaną funkcją, ale właściwość odtwarzania nadal obowiązuje.f

Teraz możemy podać alternatywną charakterystykę MMD: Drugi wiersz jest ogólnym faktem na temat norm w przestrzeniach Hilberta:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g osiąga się przez . Czwarty zależy od stanu technicznego znanego jako całkowalność Bochnera, ale jest prawdziwy np. W przypadku ograniczonych jąder lub dystrybucji z ograniczoną obsługą. Następnie na koniec używamy właściwości odtwarzania.f=g/g

Ten ostatni wiersz jest nazywany „maksymalną średnią rozbieżnością” - jest to maksymalna, ponad testowa funkcja w jednostce kuli , średniej różnicy między dwoma rozkładami.fH

Dougal
źródło
Dziękuję za wyjaśnienie, staje się dla mnie bardziej jasne; Wciąż nie dostałem tej koncepcji. Na początku powiedziałeś: „MMD jest zdefiniowane przez ideę reprezentowania odległości między rozkładami jako odległości między średnimi osadzeniami cech”. Dlaczego ten pomysł się spełnia?
Mahsa
„MMD jest zdefiniowane przez ideę reprezentowania odległości między rozkładami jako odległości między średnimi osadzeniami cech.” Dlaczego ten pomysł się sprawdza? Czy jest on związany z przestrzenią RKHS?
Mahsa
1
To tylko definicja: możesz porównać rozkłady, porównując ich średnie. Lub możesz porównać rozkłady, porównując niektóre transformacje ich średnich; lub przez porównanie ich środków i wariancji; lub poprzez porównanie średniej z dowolnej innej mapy obiektów, w tym mapy RKHS.
Dougal
Dzięki za twoją odpowiedź; Przeczytam więcej o mapie funkcji RKHS; Zastanawiałem się, dlaczego odległość MMD jest zdefiniowana na mapie obiektów RKHS? Mam na myśli, jaka jest korzyść RKHS w definicji odległości MMD?
Mahsa
Wyjaśnienie tutaj koncentruje się na „średniej rozbieżności” w przeciwieństwie do „maksymalnej średniej rozbieżności”. Czy ktoś mógłby rozwinąć część „Maksymalizacja”?
Jiang Xiang
5

Oto jak interpretowałem MMD. Dwa rozkłady są podobne, jeśli ich momenty są podobne. Stosując jądro, mogę przekształcić zmienną tak, aby wszystkie momenty (pierwszy, drugi, trzeci itd.) Były obliczane. W utajonej przestrzeni mogę obliczyć różnicę między momentami i uśrednić ją. Daje to miarę podobieństwa / odmienności między zestawami danych.

rsambasivan
źródło