Próbuję uzyskać intuicyjne zrozumienie działania analizy głównych składników (PCA) w przestrzeni przedmiotowej (podwójnej) .
Rozważ zestaw danych 2D z dwiema zmiennymi, i oraz punktami danych (macierz danych wynosi i zakłada się, że jest wyśrodkowana). Typowa prezentacja PCA polega na tym, że bierzemy pod uwagę punktów w , zapisujemy macierz kowariancji i znajdujemy jej wektory własne i wartości własne; pierwszy komputer odpowiada kierunkowi maksymalnej wariancji itp. Oto przykład z macierzą kowariancji . Czerwone linie pokazują wektory własne skalowane według pierwiastków kwadratowych odpowiednich wartości własnych.X n × 2 n R 2 2 × 2 C = ( 4 2 2 2 )
Zastanówmy się teraz, co dzieje się w przestrzeni tematycznej (tego terminu nauczyłem się od @ttnphns), znanej również jako dual space (termin używany w uczeniu maszynowym). Jest to wymiarowa przestrzeń, w której próbki naszych dwóch zmiennych (dwie kolumny ) tworzą dwa wektory i . Kwadratowa długość każdego wektora zmiennego jest równa jego wariancji, cosinus kąta między dwoma wektorami jest równy korelacji między nimi. Nawiasem mówiąc, ta reprezentacja jest bardzo standardowa w leczeniu regresji wielokrotnej. W moim przykładzie tak wygląda przestrzeń tematyczna (pokazuję tylko płaszczyznę 2D rozpiętą przez dwa wektory zmienne):X x 1 x 2
Główne składniki, będące liniowymi kombinacjami dwóch zmiennych, utworzą dwa wektory i w tej samej płaszczyźnie. Moje pytanie brzmi: jakie jest geometryczne rozumienie / intuicja sposobu tworzenia wektorów zmiennych składowych głównych przy użyciu oryginalnych wektorów zmiennych na takim wykresie? Biorąc pod uwagę x 1 i x 2 , jaka procedura geometryczna dałaby p 1 ?
Poniżej znajduje się moje częściowe zrozumienie tego.
Przede wszystkim mogę obliczyć główne komponenty / osie standardową metodą i wykreślić je na tej samej figurze:
Ponadto możemy zauważyć, że jest tak dobrana, że suma kwadratów odległości pomiędzy (niebieski wektory), a ich występy na p 1 jest minimalne; odległości te są błędami rekonstrukcji i są oznaczone czarnymi przerywanymi liniami. Odpowiednio, p 1 maksymalizuje sumę kwadratów długości obu rzutów. To w pełni określa p 1 i oczywiście jest całkowicie analogiczne do podobnego opisu w przestrzeni pierwotnej (patrz animacja w mojej odpowiedzi na Zrozumienie analizy głównych składowych, wektorów własnych i wartości własnych ). Zobacz także pierwszą część odpowiedzi @ ttnphns tutaj .
Nie jest to jednak wystarczająco geometryczne! Nie mówi mi, jak znaleźć takie i nie określa jego długości.
Domyślam się, że , x 2 , p 1 i leżą na jednej elipsie wyśrodkowanej na0,przy czym p 1 i p 2 są jej głównymi osiami. Oto jak to wygląda w moim przykładzie:
P1: Jak to udowodnić? Bezpośrednia demonstracja algebraiczna wydaje się bardzo nużąca; jak zobaczyć, że tak musi być?
Ale istnieje wiele różnych elips wyśrodkowanych na i przechodzących przez x 1 i x 2 :
P2: Co określa „poprawną” elipsę? Moje pierwsze przypuszczenie było takie, że jest to elipsa z najdłuższą możliwą osią główną; ale wydaje się to błędne (są elipsy z osią główną dowolnej długości).
Jeśli są odpowiedzi na pytania Q1 i Q2, chciałbym również wiedzieć, czy uogólniają się one na przypadek więcej niż dwóch zmiennych.
źródło
variable space (I borrowed this term from ttnphns)
- @amoeba, musisz się mylić. Zmienne jako wektory w (pierwotnie) przestrzeni n-wymiarowej nazywane są przestrzenią podmiotową (n obiektów jako osie „zdefiniowały” przestrzeń, podczas gdy zmienne p „obejmują” ją). Przeciwnie, przestrzeń zmienna jest wręcz przeciwna - tj. Zwykły wykres rozrzutu. W ten sposób określa się terminologię w statystykach wielowymiarowych. (Jeśli w uczeniu maszynowym jest inaczej - nie wiem tego - wtedy jest o wiele gorzej dla uczniów).My guess is that x1, x2, p1, p2 all lie on one ellipse
Jaka może być tutaj heurystyczna pomoc z elipsy? Wątpię.Odpowiedzi:
Wszystkie podsumowania wyświetlane w pytaniu zależą tylko od jego drugich chwil; lub, równoważnie, na macierz X ' X . Ponieważ myślimy o X jako chmurze punktów - każdy punkt jest rzędem XX X′X X X --we może zapytać, co proste operacje na tych punktach zachować właściwości .X′X
Jednym z nich jest na lewo-wielowarstwowego o o n x n matrycy U , które wytwarzają jeszcze n × 2 matrycy U X . Aby to zadziałało, konieczne jest, abyX n×n U n×2 UX
Równość jest gwarantowana, gdy jest macierzą tożsamości n × n : to znaczy, gdy U jest ortogonalna .U′U n×n U
Jest dobrze znane (i łatwe do wykazania), że matryce ortogonalne są produktami odbić i rotacji euklidesowych (tworzą grupę odbicia w ). Wybierając obroty mądrze, możemy znacznie uprościć X . Jednym z pomysłów jest skupienie się na obrotach, które wpływają jednocześnie tylko na dwa punkty w chmurze. Są to szczególnie proste,ponieważ możemy je wizualizować.Rn X
Szczególnie, pozwala i ( x j , y j ) dwa różne punkty niezerowych w chmurze, stanowiących wierszy więcej I i J o X(xi,yi) (xj,yj) i j X . Obrót przestrzeni kolumny wpływający tylko na te dwa punkty przekształca jeRn
Sprowadza się to do rysowania wektorów i ( y i , y j ) w płaszczyźnie i obracania ich o kąt θ . (Zauważ, jak mieszają się tutaj współrzędne! X idą ze sobą, a y idą razem. Zatem efekt tego obrotu w R n zwykle nie będzie wyglądał jak obrót wektorów ( x i , y i ) i ( x j , y j )(xi,xj) (yi,yj) θ x y Rn (xi,yi) (xj,yj) jak narysowano w R2 ).
Wybierając odpowiedni kąt, możemy wyzerować dowolny z tych nowych elementów. Aby być konkretnym, wybierzmy , abyθ
To sprawia, że . Wybierz znak, aby y ′ j ≥ 0 . Nazwijmy tę operację, która zmienia punkty i oraz j w chmurze reprezentowanych przez X , gamma (x′j=0 y′j≥0 i j X .γ(i,j)
Rekurencyjne zastosowanie do X spowoduje, że pierwsza kolumna X będzie niezerowa tylko w pierwszym rzędzie. Geometrycznie przeniesiemy wszystko oprócz jednego punktu w chmurze na oś y . Teraz możemy zastosować pojedynczy obrót, potencjalnie obejmujący współrzędne 2 , 3 , … , n w - 1γ(1,2),γ(1,3),…,γ(1,n) X X y 2,3,…,n , aby wycisnąć tenRn n−1 wskazuje na jeden punkt. Równoważnie został zredukowany do postaci blokuX
z i z oba wektory kolumnowe o współrzędnych n - 1 , w taki sposób, że0 z n−1
This final rotation further reducesX to its upper triangular form
In effect, we can now understandX in terms of the much simpler 2×2 matrix (x′10y′1||z||) created by the last two nonzero points left standing.
To illustrate, I drew four iid points from a bivariate Normal distribution and rounded their values to
This initial point cloud is shown at the left of the next figure using solid black dots, with colored arrows pointing from the origin to each dot (to help us visualize them as vectors).
The sequence of operations effected on these points byγ(1,2),γ(1,3), and γ(1,4) results in the clouds shown in the middle. At the very right, the three points lying along the y axis have been coalesced into a single point, leaving a representation of the reduced form of X . The length of the vertical red vector is ||z|| ; the other (blue) vector is (x′1,y′1) .
Notice the faint dotted shape drawn for reference in all five panels. It represents the last remaining flexibility in representingX : as we rotate the first two rows, the last two vectors trace out this ellipse. Thus, the first vector traces out the path
while the second vector traces out the same path according to
We may avoid tedious algebra by noting that because this curve is the image of the set of points{(cos(θ),sin(θ)):0≤θ<2π} under the linear transformation determined by
it must be an ellipse. (Question 2 has now been fully answered.) Thus there will be four critical values ofθ in the parameterization (1) , of which two correspond to the ends of the major axis and two correspond to the ends of the minor axis; and it immediately follows that simultaneously (2) gives the ends of the minor axis and major axis, respectively. If we choose such a θ , the corresponding points in the point cloud will be located at the ends of the principal axes, like this:
Because these are orthogonal and are directed along the axes of the ellipse, they correctly depict the principal axes: the PCA solution. That answers Question 1.
The analysis given here complements that of my answer at Bottom to top explanation of the Mahalanobis distance. There, by examining rotations and rescalings inR2 , I explained how any point cloud in p=2 dimensions geometrically determines a natural coordinate system for R2 . Here, I have shown how it geometrically determines an ellipse which is the image of a circle under a linear transformation. This ellipse is, of course, an isocontour of constant Mahalanobis distance.
Another thing accomplished by this analysis is to display an intimate connection between QR decomposition (of a rectangular matrix) and the Singular Value Decomposition, or SVD. Theγ(i,j) are known as Givens rotations. Their composition constitutes the orthogonal, or "Q ", part of the QR decomposition. What remained--the reduced form of X --is the upper triangular, or "R " part of the QR decomposition. At the same time, the rotation and rescalings (described as relabelings of the coordinates in the other post) constitute the D⋅V′ part of the SVD, X=UDV′ . The rows of U , incidentally, form the point cloud displayed in the last figure of that post.
Finally, the analysis presented here generalizes in obvious ways to the casesp≠2 : that is, when there are just one or more than two principal components.
źródło