W tym poście możesz przeczytać oświadczenie:
Modele są zwykle reprezentowane przez punkty na kolektorze o skończonych wymiarach.
W geometrii różnicowej i statystyce Michaela K Murraya i Johna W. Rice'a pojęcia te są wyjaśnione czytelną prozą, nawet ignorując wyrażenia matematyczne. Niestety jest bardzo mało ilustracji. To samo dotyczy tego postu na MathOverflow.
Chcę poprosić o pomoc w prezentacji wizualnej, która posłuży jako mapa lub motywacja do bardziej formalnego zrozumienia tematu.
Jakie są punkty na kolektorze? Ten cytat z tego znaleziska online najwyraźniej wskazuje, że mogą to być albo punkty danych, albo parametry dystrybucji:
Statystyki dotyczące rozmaitości i geometrii informacyjnej to dwa różne sposoby, w których geometria różniczkowa spotyka się ze statystykami. Podczas gdy w statystykach dotyczących rozmaitości są to dane, które leżą na rozmaitości, w geometrii informacji dane są w , ale sparametryzowana rodzina interesujących funkcji gęstości prawdopodobieństwa jest traktowana jako różnorodność. Takie rozmaitości są znane jako rozmaitości statystyczne.
Narysowałem ten schemat zainspirowany wyjaśnieniem przestrzeni stycznej tutaj :
[ Edytuj, aby odzwierciedlić poniższy komentarz na temat : ] Na kolektorze przestrzeń styczna jest zbiorem wszystkich możliwych pochodnych („prędkości”) w punkcie związanym z każdą możliwą krzywą na kolektorze biegnącym przezMożna to postrzegać jako zestaw map z każdej krzywej przechodzącej przez tj. zdefiniowany jako skład , z oznaczającym krzywą (funkcja od linii rzeczywistej do powierzchni kolektorap∈ M (ψ: R → M )p. p, C ∞ (t)→ R , ( f ∘ ψ ) ′ (t)ψ M p,f,fp) biegnącej przez punkt i przedstawione na czerwono na powyższym schemacie; i reprezentujące funkcję testową. W „i- ” białe linie konturowe map do tego samego punktu na prostej rzeczywistej, a otaczają punkt .
Równoważność (lub jedna z równoważności zastosowana do statystyki) jest tutaj omawiana i odnosi się do następującego cytatu :
Jeżeli przestrzeń parametr dla rodziny wykładniczej zawiera wymiarową zbiór otwarty, to nazywa się pełny ranking.
Wykładnicza rodzina, która nie jest pełna rangi, jest na ogół nazywana zakrzywioną rodziną wykładniczą, ponieważ zazwyczaj przestrzenią parametrów jest krzywa w wymiaru mniejszego niż s.
Wydaje się, że interpretacja wykresu wygląda następująco: parametry dystrybucyjne (w tym przypadku rodzin rozkładów wykładniczych) leżą na różnorodności. Punkty danych w będą mapowane do linii na kolektorze poprzez funkcję w przypadku problemu nieliniowej optymalizacji z niedoborem rang. Spowodowałoby to równoległe obliczenie prędkości w fizyce: szukanie pochodnej funkcji wzdłuż gradientu linii „izo-f” (pochodna kierunkowa w kolorze pomarańczowym):Funkcja odgrywa rolę optymalizującą wybór parametru dystrybucyjnego jako krzywej ψ : R → M f ( f ∘ ψ ) ′ ( t ) . f : M → R ψ fporusza się wzdłuż linii konturu na kolektorze.
INFORMACJE DODATKOWE:
Warto zauważyć, że uważam, że te pojęcia nie są bezpośrednio związane z nieliniowym zmniejszaniem wymiarów w ML. Wyglądają bardziej jak geometria informacji . Oto cytat:
Co ważne, statystyki dotyczące różnorodności bardzo różnią się od uczenia się różnorodności. Ta ostatnia jest gałęzią uczenia maszynowego, której celem jest nauczenie się ukrytego rozmaitości na podstawie danych ocenianych przez . Zazwyczaj wymiar poszukiwanego ukrytego kolektora jest mniejszy niż . Ukryty kolektor może być liniowy lub nieliniowy, w zależności od konkretnej zastosowanej metody. n
Następujące informacje ze statystyki kolektorów z aplikacjami do modelowania deformacji kształtów autorstwa Orena Freifelda :
Podczas gdy jest zwykle nieliniowy, można skojarzyć powierzchni styczności, oznaczoną , dla każdego punktu . jest przestrzeń wektorową, którego wymiary są takie same jak w przypadku . Pochodzenie jest na . Jeśli jest osadzone w jakiejś przestrzeni euklidesowej, możemy myśleć o jako afinicznej podprzestrzeni, tak że: 1) dotyka w ; 2) przynajmniej lokalnie leży całkowicie po jednej jego stronie. Elementy TpM nazywane są wektorami stycznymi.T p M p ∈ M T p M M T p M p M T p M M p M
[...] W przypadku rozmaitości modele statystyczne są często wyrażane w przestrzeniach stycznych.
[...]
[Rozważamy dwa] zestawy danych składają się z punktów w :
;
Niech i reprezentują dwa, ewentualnie nieznane, punkty . Zakłada się, że dwa zestawy danych spełniają następujące zasady statystyczne:µ S M
{ log μ S ( q 1 ) , ⋯ , log μ S ( q N S ) } ⊂ T μ S M ,
[...]
Innymi słowy, gdy jest wyrażany (jako wektory styczne) w przestrzeni stycznej (do ) w , można go postrzegać jako zestaw próbek iid z Gaussianina o zerowej średniej z kowariancją . Podobnie, gdy jest wyrażany w przestrzeni stycznej w , można go postrzegać jako zestaw próbek iid z zerowej średniej Gaussa z kowariancją . Uogólnia to przypadek euklidesowy. M μ L Σ L D S μ S Σ S
Na tej samej referencji znajduję najbliższy (i praktycznie jedyny) przykład online tej koncepcji graficznej, o którą pytam:
Czy to wskazywałoby, że dane leżą na powierzchni rozmaitości wyrażonej jako wektory styczne, a parametry byłyby odwzorowane na płaszczyźnie kartezjańskiej?
źródło
Odpowiedzi:
W odległości informacyjnej Fishera: odczyt geometryczny , Costa SI, Santos SA i Strapasson JE wykorzystują podobieństwo między macierzą informacji Fishera rozkładów Gaussa a metryką w modelu dyskowym Beltrami-Pointcaré, aby uzyskać zamkniętą formułę.
z
Dywergencja kullbacka-leiblera jest ściśle związana, choć brakuje geometrii i powiązane metryki.
Warto zauważyć, że matrycę informacji Fishera można interpretować jako Hesję entropii Shannona :
z
Ten przykład jest podobny w koncepcji do bardziej powszechnej stereograficznej mapy Ziemi .
Wielowymiarowe osadzanie ML lub wielorakie uczenie się nie jest tutaj omawiane.
źródło
Istnieje więcej niż jeden sposób powiązania prawdopodobieństwa z geometrią. Jestem pewien, że słyszałeś o rozkładach eliptycznych (np. Gaussowskich). Sam termin oznacza połączenie geometrii i jest oczywisty, gdy narysujesz jego macierz kowariancji. W przypadku kolektorów umieszcza każdą możliwą wartość parametru w układzie współrzędnych. Na przykład kolektor gaussowski miałby dwa wymiary: . Możesz mieć dowolną wartość ale tylko dodatnie wariancje . Stąd rozmaitość Gaussa stanowiłaby połowę całej przestrzeni . Nie takie interesujące μ ∈ R σ 2 > 0 R 2μ,σ2 μ∈R σ2>0 R2
źródło