Graficzna intuicja statystyk na rozmaitości

12

W tym poście możesz przeczytać oświadczenie:

Modele są zwykle reprezentowane przez punkty na kolektorze o skończonych wymiarach.θ

W geometrii różnicowej i statystyce Michaela K Murraya i Johna W. Rice'a pojęcia te są wyjaśnione czytelną prozą, nawet ignorując wyrażenia matematyczne. Niestety jest bardzo mało ilustracji. To samo dotyczy tego postu na MathOverflow.

Chcę poprosić o pomoc w prezentacji wizualnej, która posłuży jako mapa lub motywacja do bardziej formalnego zrozumienia tematu.

Jakie są punkty na kolektorze? Ten cytat z tego znaleziska online najwyraźniej wskazuje, że mogą to być albo punkty danych, albo parametry dystrybucji:

Statystyki dotyczące rozmaitości i geometrii informacyjnej to dwa różne sposoby, w których geometria różniczkowa spotyka się ze statystykami. Podczas gdy w statystykach dotyczących rozmaitości są to dane, które leżą na rozmaitości, w geometrii informacji dane są w , ale sparametryzowana rodzina interesujących funkcji gęstości prawdopodobieństwa jest traktowana jako różnorodność. Takie rozmaitości są znane jako rozmaitości statystyczne.Rn


Narysowałem ten schemat zainspirowany wyjaśnieniem przestrzeni stycznej tutaj :

wprowadź opis zdjęcia tutaj

[ Edytuj, aby odzwierciedlić poniższy komentarz na temat :C ] Na kolektorze przestrzeń styczna jest zbiorem wszystkich możliwych pochodnych („prędkości”) w punkcie związanym z każdą możliwą krzywą na kolektorze biegnącym przezMożna to postrzegać jako zestaw map z każdej krzywej przechodzącej przez tj. zdefiniowany jako skład , z oznaczającym krzywą (funkcja od linii rzeczywistej do powierzchni kolektorap M (ψ: R M )p. p, C (t) R , ( f ψ ) (t)ψ M p,f,fp(M)pM(ψ:RM)p.p,C(t)R,(fψ)(t)ψM) biegnącej przez punkt i przedstawione na czerwono na powyższym schemacie; i reprezentujące funkcję testową. W „i- ” białe linie konturowe map do tego samego punktu na prostej rzeczywistej, a otaczają punkt .p,f,fp

Równoważność (lub jedna z równoważności zastosowana do statystyki) jest tutaj omawiana i odnosi się do następującego cytatu :

Jeżeli przestrzeń parametr dla rodziny wykładniczej zawiera wymiarową zbiór otwarty, to nazywa się pełny ranking.s

Wykładnicza rodzina, która nie jest pełna rangi, jest na ogół nazywana zakrzywioną rodziną wykładniczą, ponieważ zazwyczaj przestrzenią parametrów jest krzywa w wymiaru mniejszego niż s.Rss.

Wydaje się, że interpretacja wykresu wygląda następująco: parametry dystrybucyjne (w tym przypadku rodzin rozkładów wykładniczych) leżą na różnorodności. Punkty danych w będą mapowane do linii na kolektorze poprzez funkcję w przypadku problemu nieliniowej optymalizacji z niedoborem rang. Spowodowałoby to równoległe obliczenie prędkości w fizyce: szukanie pochodnej funkcji wzdłuż gradientu linii „izo-f” (pochodna kierunkowa w kolorze pomarańczowym):Funkcja odgrywa rolę optymalizującą wybór parametru dystrybucyjnego jako krzywej ψ : RM f ( f ψ ) ( t ) . f : MR ψ fRψ:RMf(fψ)(t).f:MRψporusza się wzdłuż linii konturu na kolektorze.f


INFORMACJE DODATKOWE:

Warto zauważyć, że uważam, że te pojęcia nie są bezpośrednio związane z nieliniowym zmniejszaniem wymiarów w ML. Wyglądają bardziej jak geometria informacji . Oto cytat:

Co ważne, statystyki dotyczące różnorodności bardzo różnią się od uczenia się różnorodności. Ta ostatnia jest gałęzią uczenia maszynowego, której celem jest nauczenie się ukrytego rozmaitości na podstawie danych ocenianych przez . Zazwyczaj wymiar poszukiwanego ukrytego kolektora jest mniejszy niż . Ukryty kolektor może być liniowy lub nieliniowy, w zależności od konkretnej zastosowanej metody. nRnn


Następujące informacje ze statystyki kolektorów z aplikacjami do modelowania deformacji kształtów autorstwa Orena Freifelda :

wprowadź opis zdjęcia tutaj

Podczas gdy jest zwykle nieliniowy, można skojarzyć powierzchni styczności, oznaczoną , dla każdego punktu . jest przestrzeń wektorową, którego wymiary są takie same jak w przypadku . Pochodzenie jest na . Jeśli jest osadzone w jakiejś przestrzeni euklidesowej, możemy myśleć o jako afinicznej podprzestrzeni, tak że: 1) dotyka w ; 2) przynajmniej lokalnie leży całkowicie po jednej jego stronie. Elementy TpM nazywane są wektorami stycznymi.T p M p M T p M M T p M p M T p M M p MMTpMpMTpMMTpMpMTpMMpM

[...] W przypadku rozmaitości modele statystyczne są często wyrażane w przestrzeniach stycznych.

[...]

[Rozważamy dwa] zestawy danych składają się z punktów w :M

DL={p1,,pNL}M ;

DS={q1,,qNS}M

Niech i reprezentują dwa, ewentualnie nieznane, punkty . Zakłada się, że dwa zestawy danych spełniają następujące zasady statystyczne:µ S MµLµSM

{ log μ S ( q 1 ) , , log μ S ( q N S ) } T μ S M ,{logμL(p1),,logμL(pNL)}TμLM,logμL(pi)i.i.dN(0,ΣL) {logμS(q1),,logμS(qNS)}TμSM,logμS(qi)i.i.dN(0,ΣS)

[...]

Innymi słowy, gdy jest wyrażany (jako wektory styczne) w przestrzeni stycznej (do ) w , można go postrzegać jako zestaw próbek iid z Gaussianina o zerowej średniej z kowariancją . Podobnie, gdy jest wyrażany w przestrzeni stycznej w , można go postrzegać jako zestaw próbek iid z zerowej średniej Gaussa z kowariancją . Uogólnia to przypadek euklidesowy. M μ L Σ L D S μ S Σ SDLMμLΣLDSμSΣS

Na tej samej referencji znajduję najbliższy (i praktycznie jedyny) przykład online tej koncepcji graficznej, o którą pytam:

wprowadź opis zdjęcia tutaj

Czy to wskazywałoby, że dane leżą na powierzchni rozmaitości wyrażonej jako wektory styczne, a parametry byłyby odwzorowane na płaszczyźnie kartezjańskiej?

Antoni Parellada
źródło
1
Co próbujesz tutaj zrobić? Rysować rozmaitości? Większość z nich jest zbyt nudna, aby rysować. Na przykład wypróbuj rozkład Gaussa.
Aksakal,
Normalnie myślałbym o przestrzeniach parametrów jako przestrzeniach wektorowych, np. . Gdybym miał pomyśleć o parametrycznych „rozmaitościach”, pierwszą rzeczą, jaka przychodzi mi na myśl, byłyby „systemy ograniczeń”, np. . W przeciwnym razie, dlaczego przestrzeń nie jest „pełna”? (Co definiuje podzbiór, który jest „kolektorem”?)f ( θ ) = 0θRnf(θ)=0
GeoMatt22,
2
Mamy nadzieję, że @whuber przyjdzie i opracuje komentarze na czacie.
gung - Przywróć Monikę
1
Krótka odpowiedź na edytowane pytanie brzmi „nie”. Przestrzeń styczna opisuje prędkości wszystkich gładkich ścieżek w kolektorze. Jego podstawową rolą w statystyce jest maksymalizacja prawdopodobieństw, gdzie różnorodność opisuje skończoną sparametryzowaną rodzinę. W „uczeniu się rozmaitości” rozmaitość jest używana jako lokalne przybliżenie danych - jest to zakrzywiona wersja „przestrzeni kolumn” w regresji liniowej. Tam przestrzeń styczna jest osadzona w otaczającej przestrzeni euklidesowej. Lokalnie opisuje „kierunki” danych, a jego normalny pakiet podaje kierunki „błędów”.
whuber
1
Tak: przestrzeń cotangensowa w może być zdefiniowana jako wyprowadzenie zarodków funkcji wokół . Przestrzeń styczna w (dlatego!) Jest po prostu podwójna. i nabyć Topologia - czyli przyznać pojęcie dwie przestrzenie styczne i jest „blisko” - za pomocą wykresów na współrzędnych . Zmniejsza to definicję (i problem wizualizacji) do definicji definiowania przestrzeni stycznej . Jest to zbiór wszystkich wektorów pochodzących od . Spivak, w Calculus on Manifoldsp p p T M T M T p M T q M M T x R n xTpMpppTMTMTpMTqMMTxRnx, zapewnia jasną, elementarną definicję tego rodzaju.
whuber

Odpowiedzi:

3

(Θ)N(μ,σ2),R2xy

wprowadź opis zdjęcia tutaj

pdf

W odległości informacyjnej Fishera: odczyt geometryczny , Costa SI, Santos SA i Strapasson JE wykorzystują podobieństwo między macierzą informacji Fishera rozkładów Gaussa a metryką w modelu dyskowym Beltrami-Pointcaré, aby uzyskać zamkniętą formułę.

x2+y2x2=1pdfs,PQ,pdfsgμν(Θ)eμeν

D(P(x;θ1),Q(x;θ2))=minθ(t)|θ(0)=θ1,θ(1)=θ201(dθdt)I(θ)dθdtdt

z

I(θ)=1σ2[1002]

wprowadź opis zdjęcia tutaj

Dywergencja kullbacka-leiblera jest ściśle związana, choć brakuje geometrii i powiązane metryki.

Warto zauważyć, że matrycę informacji Fishera można interpretować jako Hesję entropii Shannona :

gij(θ)=E[2logp(x;θ)θiθj]=2H(p)θiθj

z

H(p)=p(x;θ)logp(x;θ)dx.

Ten przykład jest podobny w koncepcji do bardziej powszechnej stereograficznej mapy Ziemi .

Wielowymiarowe osadzanie ML lub wielorakie uczenie się nie jest tutaj omawiane.

Antoni Parellada
źródło
1

Istnieje więcej niż jeden sposób powiązania prawdopodobieństwa z geometrią. Jestem pewien, że słyszałeś o rozkładach eliptycznych (np. Gaussowskich). Sam termin oznacza połączenie geometrii i jest oczywisty, gdy narysujesz jego macierz kowariancji. W przypadku kolektorów umieszcza każdą możliwą wartość parametru w układzie współrzędnych. Na przykład kolektor gaussowski miałby dwa wymiary: . Możesz mieć dowolną wartość ale tylko dodatnie wariancje . Stąd rozmaitość Gaussa stanowiłaby połowę całej przestrzeni . Nie takie interesujące μ R σ 2 > 0 R 2μ,σ2μRσ2>0R2

Aksakal
źródło
Myślę, że myślałem, że „rozmaitość” ma być niższym wymiarem niż przestrzeń do osadzenia? Czyli półprzestrzeń by się nie liczyła?
GeoMatt22,
Z Gaussianem nie jest to nawet różnorodne, prawda. Potrzebujesz ograniczeń, więc staje się to jakimś samolotem lub linią
Aksakal,
Próbuję zrozumieć konsekwencje swojej odpowiedzi ... Czy masz na myśli „ jest odnośnik geometrii”? Właśnie znalazłem ten powiązany post na MathOverflow .
Antoni Parellada,
3
Staje się bardziej interesujący dzięki odpowiednim metrykom ... takim jak Fisher-Rao, a następnie staje się hiperbolicznym polem Poincare pl.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model
mic
2
Dla wszystkich: (1) rozmaitości opisujące rodziny parametryczne są wewnętrznymi rozmaitościami: nie muszą być osadzone w żadnej przestrzeni wektorowej. (2) Są one czymś więcej niż tylko różnorodnymi rozmaitościami: informacja Fishera nadaje im miernik Riemanniana - lokalny dystans - który umożliwia badanie ich geometrycznie. To powoduje, że „połowa całej przestrzeni” staje się zakrzywioną powierzchnią. R2
whuber