Wyjaśnienie w geometrii informacji

10

To pytanie dotyczy artykułu Różnicowa geometria zakrzywionych rodzin wykładniczych-krzywizny i utraty informacji autorstwa Amari.

Tekst wygląda następująco.

Niech będzie wymiarowym kolektorem rozkładów prawdopodobieństwa z układem współrzędnych , gdzie zakłada się ...n θ = ( θ 1 , , θ n ) p θ ( x ) > 0Sn={pθ}nθ=(θ1,,θn)pθ(x)>0

Możemy uznać każdy punkt o a przeprowadzania funkcji z ...S n log p θ ( x ) xθSnlogpθ(x)x

Niech będzie przestrzenią styczną w , która z grubsza jest utożsamiana z linearyzowaną wersją małego sąsiedztwa w . Niech będą naturalną podstawą powiązanego ze skoordynowanym układem ... S n θ θ S n e i ( θ ) , i = 1 , , n T θTθSnθθSnei(θ),i=1,,nTθ

Ponieważ każdy punkt z niesie funkcję z , naturalne jest, że w reprezentuje funkcjęS n log p θ ( x ) x e i ( θ ) θ e i ( θ ) = θSnlogpθ(x)xei(θ)θ

ei(θ)=θilogpθ(x).

Nie rozumiem ostatniego stwierdzenia. Pojawia się to w sekcji 2 wyżej wymienionego artykułu. W jaki sposób podstawę przestrzeni stycznej określa powyższe równanie? Byłoby pomocne, gdyby ktoś w tej społeczności zaznajomiony z tego rodzaju materiałami mógł mi to pomóc. Dzięki.


Aktualizacja 1:

Chociaż zgadzam się, że (od @aginensky) jeśli są liniowo niezależni, to są również liniowo niezależne, to, w jaki sposób są one członkami przestrzeni stycznej, nie jest bardzo jasne. Jak więc można uznać za podstawę przestrzeni stycznej. Każda pomoc jest mile widziana.θipθθilogpθθilogpθ

Aktualizacja 2:

@aginensky: W swojej książce Amari mówi:

Rozważmy przypadek, w którym , zbiór wszystkich (ściśle) pozytywnych miar prawdopodobieństwa na , gdzie traktujemy jako podzbiór . W rzeczywistości jest otwartym podzbiorem przestrzeni afinicznej .X = { x 0 , , x n } P ( X ) R X = { X | X : XR } P ( X ) { X | x X ( x ) = 1 }Sn=P(X)X={x0,,xn}P(X)RX={X|X:XR}P(X){X|xX(x)=1}

Następnie przestrzeń styczna z w każdym miejscu mogą być oczywiście określone liniowymi podprzestrzeń . Dla naturalnej podstawy układu współrzędnych , mamy .S n A 0 = { X | x X ( x ) = 0 } Tp(Sn)SnA0={X|xX(x)=0} θ=(θ1,,θn)(θiθ=(θ1,,θn)(θi)θ=θipθ

Następnie weźmy kolejne osadzanie i zidentyfikujmy za pomocą podzbioru z . Wektor styczny jest następnie reprezentowany przez wynik działania na , które oznaczamy przez . W szczególności mamy . Oczywiste jest, że i że S n log S n : = { log p | p S n } R X X T p ( S n ) X p log p X ( e ) ( plogpSnlogSn:={logp|pSn}RXXTp(Sn)XplogpX(e)X(e)=X(x)/p(x), T ( e ) P (Sn)={X(e)| XTp(Sn)}={ARX| xA(x)p(x(θi)θ(e)=θilogpθX(e)=X(x)/p(x)

Tp(e)(Sn)={X(e)|XTp(Sn)}={ARX|xA(x)p(x)=0}.

Moje pytanie: jeśli zarówno i są podstawą przestrzeni stycznej, to czy nie byłoby to sprzeczne z fakt, że i są różne i ?θi(θi)(e)TpTp(e)θi(e)Tp(e)

Wydaje mi się, że istnieje związek między ( ) i . Jeśli możesz to wyjaśnić, byłoby to bardzo pomocne. Możesz dać to jako odpowiedź.Sn,Tp(logSn,Tp(e))

Ashok
źródło
Osobiście rozumiem twoje zamieszanie. Wydaje się, że nie jest naturalne używanie współrzędnych „ ” dla przestrzeni stycznej. Twoje pytanie ma charakter lokalny, więc bierzemy za lokalne współrzędne. Typowe współrzędne dla przestrzeni stycznej to . Biorąc pod uwagę rozsądne warunki gładkości, pochodnej nie znikającej itp., A następnie regułą łańcucha przyjmuje się standardową podstawę przestrzeni stycznej i mnożąc ją przez funkcje, które generalnie nadal będą podstawą . ei(θ)=θilogpθ(x)θiθipθ
Meh
Próbowałem edytować swój komentarz dla jasności i nie mogłem tego zrobić. Daj mi znać, jeśli chcesz więcej szczegółów.
Meh
Dziękuję @aginensky: Masz na myśli, ponieważ , to także podstawa dla przestrzeni stycznej, prawda? θilogpθ(x)=1/pθ(x)θipθ(x)
Ashok,
Ostateczne stwierdzenie jest (uszkodzoną) wersją jednej definicji przestrzeni stycznej. Ściśle mówiąc, przestrzeń styczna w punkcie rozmaitości różniczkowej jest przestrzenią podwójną (przestrzeń wektorową) w stosunku do przestrzeni pochodnych zarodków funkcji różniczkowalnych w sąsiedztwie tego punktu. Podstawą dla Dual i przez określenie The jest jej podwójne podstawą. Standardowym materiałem źródłowym w tym materiale jest tom 1 geometrii różnicowej Michaela Spivaka , amazon.com/… . {dθi}{θi}
whuber
@ Ashok - tak. Rozważę to, co napisałem, oparte na zwięzłej wersji jednej definicji przestrzeni stycznej. Oczywiście, ponieważ przestrzeń cotangensowa jest podwójna względem przestrzeni stycznej, można również argumentować, że są prawdziwą podwójną podstawą. W każdym razie, dopóki nie zniknie, myślę, że jesteś dobry. dθpθ
Meh

Odpowiedzi:

2

Moje komentarze są tak długie, że zamieszczam je jako odpowiedź.

Myślę, że pytanie jest w tym momencie bardziej filozoficzne niż matematyczne. Mianowicie, co rozumiesz przez spację, aw tym przypadku rozmaitość? Typowa definicja rozmaitości nie obejmuje osadzenia w przestrzeni afinicznej. To jest podejście „nowoczesne” (150 lat?). Na przykład dla Gaussa kolektor był kolektorem ze specyficznym osadzeniem w określonej przestrzeni afinicznej ( ). Jeśli ktoś ma kolektor z osadzeniem w określonym , to przestrzeń styczna (w dowolnym punkcie kolektora) jest izomorficzna do określonej podprzestrzeni przestrzeni stycznej do w tym punkcie. Zauważ, że przestrzeń styczna do w dowolnym punkcie jest identyfikowana z „tym samym” . RnRnRnRnRn

Myślę, że chodzi o to, że w artykule Amari przestrzeń, którą określa jako zawiera pewne „naturalne” osadzenie w przestrzeni afinicznej ze współrzędnymi dla których można rozważyć jako współrzędne w przestrzeni stycznej . Mógłbym dodać, że jest jasne tylko, czy funkcja jest w pewnym sensie „ogólna” - dla zdegenerowanego to się nie powiedzie. Na przykład, jeśli funkcja nie obejmowała wszystkich zmiennych . Najważniejsze jest to, że to osadzenie kolektora w konkretnym , powoduje specyficzną identyfikację przestrzeni stycznej za pomocąSnθipθSnppθiRnpθ. Kolejnym jego punktem jest to, że ze względu na właściwości może mapować swój rozmaitość za pomocą funkcji logu na inną przestrzeń afiniczną, w której przestrzeń styczna ma inną identyfikację pod względem nowych współrzędnych (logi i ich pochodne). Następnie mówi, że ze względu na właściwości jego sytuacji dwa rozmaitości są izomorficzne, a mapa indukuje izomorfizm w przestrzeniach stycznych. Prowadzi to do identyfikacji (tj. Izomorfizmu) dwóch przestrzeni stycznych. p

Kluczową ideą jest to, że dwie przestrzenie styczne nie są tymi samymi zbiorami, ale są po ich poprawnej identyfikacji izomorficzne (co w zasadzie jest po grecku „identyczne”). Na przykład, czy grupa wszystkich permutacji to ta sama grupa co grupa wszystkich permutacji ? Jako prosty eksperyment myślowy, rozważ , dodatnie rzeczywiste odwzorowanie na , wszystkie rzeczywiste pod dziennikiem mapy. Wybierz swoją ulubioną liczbę rzeczywistą i zastanów się, jaka mapa znajduje się na przestrzeniach stycznych. Czy w końcu rozumiem twoje pytanie? Zastrzeżenie jest słuszne, a mianowicie, że geometria różnicowa nie jest moim głównym obszarem specjalizacji. Myślę, że mam rację, ale nie wahaj się krytykować lub wciąż kwestionować tę odpowiedź.{1,2,3}{a,b,c}R+R>0

meh
źródło
Twoje znaczenie słowa „izomorficzny” nie jest w pełni jasne, ale wydaje się, że jest bardzo słabe; mianowicie ta, którą podaje pchnięcie do przodu odwracalnej mapy różniczkowalnej, która jest tylko pewną odwracalną transformacją liniową. Kluczowym pomysłem do wykonywania geometrii jest uzyskanie sensownej i użytecznej metryki Riemanninana zdefiniowanej na rozmaitości. Istotnym sensem „izomorfizmu” byłaby izometria : to znaczy mapa między przestrzeniami stycznymi musi zachowywać odległość. f
whuber
@whuber. Rzeczywiście, moje komentarze dotyczą jedynie geometrii różnicowej sytuacji i przestrzeni stycznej. Nie jestem wcale pewien, jakie warunki na byłyby konieczne, aby mapa była izometryczna. Ale gdy zrozumiałem pytanie, naprawdę docierało do różnicy między identyfikacją („tą samą”) a izomorfizmem. p
meh
@ whuber: Odpowiednia metryka Riemanniana jest podana przez , gdzie . Czy to sugeruje, że można również uznać za wektory styczne? g i , j = x i p θ ( x ) j log p θ ( x ) j log p θG=[gi,j]gi,j=xipθ(x) jlogpθ(x)jlogpθ
Ashok