Czy istnieje matematyczny związek między:
- podobieństwo cosinus nazwa dwóch wektorów i oraz
- cosinus podobieństwo z i , niejednorodnie skalowane poprzez danej matrycy ? Tutaj jest daną macierzą diagonalną z nierównymi elementami na przekątnej.
Próbowałem przejrzeć obliczenia, ale nie mogłem dotrzeć do prostego / interesującego linku (wyrażenia). Zastanawiam się, czy istnieje.
Np. Kąty nie są zachowywane w skalowaniu nierównomiernym, ale jaki jest związek między kątami pierwotnymi a kątami po skalowaniu nierównomiernym? Co można powiedzieć o związku między zbiorem wektorów S1 a innym zbiorem wektorów S2 - gdzie S2 uzyskuje się przez nierównomierne skalowanie S1?
linear-algebra
cosine-similarity
turdus-merula
źródło
źródło
Odpowiedzi:
Ponieważ jest dość ogólne, a zmiana podobieństwa kosinusowego zależy od konkretnych i i ich związku z , nie jest możliwe ustalenie konkretnego wzoru. Istnieją jednak praktycznie obliczalne granice, o ile podobieństwo cosinusa może się zmienić . Można je znaleźć, zwiększając kąt między a biorąc pod uwagę, że podobieństwo cosinus między i jest określoną wartością, powiedzmy (gdzie jest kątem między i ). Odpowiedź mówi nam, ile kątM A B M MA MB A B cos(2ϕ) 2ϕ A B 2ϕ może ewentualnie być zginane przez transformacji .M
Obliczenia grożą bałaganem. Niektóre sprytne wybory zapisu, a także pewne wstępne uproszczenia, zmniejszają wysiłek. Okazuje się, że rozwiązanie w dwóch wymiarach ujawnia wszystko, co musimy wiedzieć. Jest to problem możliwy do rozwiązania, zależny tylko od jednej rzeczywistej zmiennej , którą można łatwo rozwiązać za pomocą technik rachunku różniczkowego. Prosty argument geometryczny rozszerza to rozwiązanie na dowolną liczbę wymiarów .θ n
Wstęp do matematyki
Z definicji cosinus kąta między dowolnymi dwoma wektorami i uzyskuje się przez znormalizowanie ich do długości jednostkowej i pobranie ich iloczynu. A zatem,A B
i, pisząc , cosinus kąta między obrazami i pod transformacją wynosiΣ=M′M A B M
Zauważ, że tylko znaczenie w analizie, aΣ nie samoMożemy zatem wykorzystać Singular Value rozpadu (SVD) z uproszczenie problemu. Przypomnijmy, że wyraża to jako iloczyn (od prawej do lewej) macierzy ortogonalnej , macierzy diagonalnej i innej macierzy ortogonalnej :M M M V′ D U
Innymi słowy, nie jest podstawą uprzywilejowanych wektorów (kolumny ), w którym działa przez przeskalowanie co osobno przez przekątnej wejściowej od (które będzie wywoływać ), a następnie stosując obrót (lub anty-obrót) do wyniku. Ten końcowy obrót nie zmieni żadnych długości ani kątów, a zatem nie powinien wpływać na . Możesz to zobaczyć formalnie z obliczeniamie1,…,en V M ei ith D di U Σ
W związku z tym, aby zbadać możemy dowolnie zastąpić dowolną inną macierzą, która daje te same wartości w . Po zamówieniu taki sposób, aby wielkość zmniejszyła się (i zakładając, że nie jest identycznie zerowe), dobrym wyborem jestΣ M (1) ei di M M
Ukośne elementy to(1/d1)D
W szczególności wpływ (czy to w postaci oryginalnej, czy zmienionej) na wszystkie kąty jest całkowicie zdeterminowany przez to, żeM
Analiza przypadku specjalnego
Niech . Ponieważ zmiana długości wektorów nie zmienia kąta między nimi, możemy założyć, że i są wektorami jednostkowymi. W płaszczyźnie wszystkie takie wektory mogą być oznaczone kątem, który tworzą z , co pozwala nam pisaćn=2 A B e1
W związku z tym
(Zobacz rysunek poniżej.)
Zastosowanie jest proste: naprawia pierwsze współrzędne i i mnoży ich drugie współrzędne przez . Dlatego kąt od do wynosiM A B λ2 MA MB
Ponieważ jest funkcją ciągłą, ta różnica kątów jest funkcją ciągłą . W rzeczywistości jest różniczkowalny. To pozwala nam znaleźć skrajne kąty poprzez sprawdzenie zer pochodnej . Ta pochodna jest łatwa do obliczenia: jest to stosunek funkcji trygonometrycznych. Zera mogą występować tylko między zerami jego licznika, więc nie zawracajmy sobie głowy obliczeniem mianownika. OtrzymujemyM θ f′(θ)
Szczególne przypadki , i są łatwe do zrozumienia: odpowiadają sytuacjom, w których ma niższą rangę (a więc zgniata wszystkie wektory do linii); gdzie jest wielokrotnością macierzy tożsamości; i gdzie i są równoległe (stąd kąt między nimi nie może się zmienić, niezależnie od ). Przypadek jest wykluczony przez warunek .λ2=0 λ2=1 ϕ=0 M M A B θ λ2=−1 λ2≥0
Oprócz tych szczególnych przypadków, zera występują tylko wtedy, gdy : to znaczy, lub . Oznacza to, że linia wyznaczona przez przecina kąt . Wiemy teraz, że skrajne wartości kąta między i muszą znajdować się wśród wartości , więc obliczmy je:sin(2θ)=0 θ=0 θ=π/2 e1 AB MA MB f(θ)
Odpowiednie cosinusy to
i
Często wystarczy zrozumieć, jak zniekształca kąty proste. W tym przypadku , co prowadzi do , które możesz podłączyć do poprzednich formuł.M 2ϕ=π/2 tan(ϕ)=cot(ϕ)=1
Zauważ, że im mniejsze , tym bardziej ekstremalne stają się te kąty i tym większe jest zniekształcenie.λ2
Ta rycina pokazuje cztery konfiguracje wektorów i oddzielonych kątem . Okrąg jednostki i jego eliptyczny obraz pod są cieniowane dla odniesienia (z działaniem równomiernie przeskalowanym, aby ). Nagłówki cyfra wskazuje wartość , środek i . Najbliższe takie i mogą się pojawić po transformacji przez to konfiguracja taka jak ta po lewej zA B 2ϕ=π/3 M M λ1=1 θ A B A B M θ=0 . Najbardziej oddalone od siebie mogą być konfiguracje takie jak ta po prawej stronie z . Pokazane są dwie możliwości pośrednie.θ=π/2
Rozwiązanie dla wszystkich wymiarów
Widzieliśmy, jak działa , rozszerzając każdy wymiar o współczynnik . Spowoduje to zniekształcenie sfery jednostkowej w elipsoidę. W określić swoje główne osie. Do są odległości od pochodzenia, wzdłuż tych osi, do elipsoidy. W konsekwencji najmniejsza, , jest najkrótszą odległością (od dowolnego kierunku) od początku do elipsoidy, a największa, , jest najdalszą (od dowolnego kierunku) odległości od początku do elipsoidy.M i λi {A|A′A=1} ei λi λn λ1
W większych wymiarach , i znajdują się w dwuwymiarowej podprzestrzeni. odwzorowuje koło jednostki w tej podprzestrzeni na przecięcie elipsoidy z płaszczyzną zawierającą i . To skrzyżowanie, będące liniowym zniekształceniem koła, jest elipsą. Oczywiście największa odległość do tej elipsy wynosi nie więcej niż a najkrótsza odległość nie jest mniejsza niż .n>2 A B M MA MB λ1=1 λn
Jak zauważyliśmy na końcu poprzedniego rozdziału, najbardziej ekstremalną możliwością jest umieszczenie i w płaszczyźnie zawierającej dwa dla których stosunek odpowiednich jest tak mały, jak to możliwe. Stanie się to na płaszczyźnie . Mamy już rozwiązanie dla tej sprawy.A B ei λi e1,en
Wnioski
Ekstremalne podobieństwa cosinusów osiągalne przez zastosowanie do dwóch wektorów mających podobieństwo cosinusów podano w i . Osiąga się to poprzez umieszczenie i pod równymi kątami w kierunku, w którym maksymalnie wydłuża dowolny wektor (taki jak kierunek ) i rozdzielając je w kierunku, w którym minimalnie wydłuża dowolny wektor ( takie jak kierunek ).M cos(2ϕ) (2) (3) A B Σ=M′M e1 Σ en
Te skrajne mogą być obliczane w odniesieniu do metody SVD .M
źródło
Prawdopodobnie jesteś zainteresowany:
Możesz diagonalizować (lub, jak to nazywacie, PCA), co mówi, że podobieństwo podczas transformacji zachowuje się poprzez rzutowanie na główne składniki, a następnie obliczanie podobieństwa w tej nowej przestrzeni. Aby jeszcze bardziej to , pozwól, aby główne składniki były z wartościami własnymi . NastępnieMTM=UΣUT A,B M A,B ui λi
co daje ci:
Zauważ, że dzieje się tutaj skalowanie: rozciągają się / kurczą. Gdy są wektorami jednostkowymi i jeśli każdy , to odpowiada rotacji, a otrzymasz: , który jest jest równoważne stwierdzeniu, że produkty wewnętrzne są niezmienne pod rotacją. Zasadniczo kąt pozostaje taki sam, gdy jest transformacją konformalną, co w tym przypadku wymaga, aby był odwracalny, a rozkład biegunowy spełnia z , tj. .λi A,B λi=1 M sim(MA,MB)=sim(A,B) M M M M=OP P=aI MTM=a2I
źródło