Geometryczne rozumienie PCA w badanej (podwójnej) przestrzeni

19

Próbuję uzyskać intuicyjne zrozumienie działania analizy głównych składników (PCA) w przestrzeni przedmiotowej (podwójnej) .

Rozważ zestaw danych 2D z dwiema zmiennymi, x1 i x2 oraz punktami danych (macierz danych wynosi i zakłada się, że jest wyśrodkowana). Typowa prezentacja PCA polega na tym, że bierzemy pod uwagę punktów w , zapisujemy macierz kowariancji i znajdujemy jej wektory własne i wartości własne; pierwszy komputer odpowiada kierunkowi maksymalnej wariancji itp. Oto przykład z macierzą kowariancji . Czerwone linie pokazują wektory własne skalowane według pierwiastków kwadratowych odpowiednich wartości własnych.X n × 2 n R 2 2 × 2 C = ( 4 2 2 2 )nXn×2nR22×2C=(4222)

PCA w przestrzeni próbki

Zastanówmy się teraz, co dzieje się w przestrzeni tematycznej (tego terminu nauczyłem się od @ttnphns), znanej również jako dual space (termin używany w uczeniu maszynowym). Jest to wymiarowa przestrzeń, w której próbki naszych dwóch zmiennych (dwie kolumny ) tworzą dwa wektory i . Kwadratowa długość każdego wektora zmiennego jest równa jego wariancji, cosinus kąta między dwoma wektorami jest równy korelacji między nimi. Nawiasem mówiąc, ta reprezentacja jest bardzo standardowa w leczeniu regresji wielokrotnej. W moim przykładzie tak wygląda przestrzeń tematyczna (pokazuję tylko płaszczyznę 2D rozpiętą przez dwa wektory zmienne):X x 1 x 2nXx1x2

PCA w przestrzeni tematycznej 1

Główne składniki, będące liniowymi kombinacjami dwóch zmiennych, utworzą dwa wektory p1 i w tej samej płaszczyźnie. Moje pytanie brzmi: jakie jest geometryczne rozumienie / intuicja sposobu tworzenia wektorów zmiennych składowych głównych przy użyciu oryginalnych wektorów zmiennych na takim wykresie? Biorąc pod uwagę x 1 i x 2 , jaka procedura geometryczna dałaby p 1 ?p2x1x2p1


Poniżej znajduje się moje częściowe zrozumienie tego.

Przede wszystkim mogę obliczyć główne komponenty / osie standardową metodą i wykreślić je na tej samej figurze:

PCA w przestrzeni tematycznej 2

Ponadto możemy zauważyć, że p1 jest tak dobrana, że suma kwadratów odległości pomiędzy (niebieski wektory), a ich występy na p 1 jest minimalne; odległości te są błędami rekonstrukcji i są oznaczone czarnymi przerywanymi liniami. Odpowiednio, p 1 maksymalizuje sumę kwadratów długości obu rzutów. To w pełni określa p 1 i oczywiście jest całkowicie analogiczne do podobnego opisu w przestrzeni pierwotnej (patrz animacja w mojej odpowiedzi na Zrozumienie analizy głównych składowych, wektorów własnych i wartości własnych ). Zobacz także pierwszą część odpowiedzi @ ttnphns tutaj .xip1p1p1

Nie jest to jednak wystarczająco geometryczne! Nie mówi mi, jak znaleźć takie i nie określa jego długości.p1

Domyślam się, że , x 2 , p 1 ix1x2p1 leżą na jednej elipsie wyśrodkowanej na0,przy czym p 1 i p 2 są jej głównymi osiami. Oto jak to wygląda w moim przykładzie:p20p1p2

wprowadź opis zdjęcia tutaj

P1: Jak to udowodnić? Bezpośrednia demonstracja algebraiczna wydaje się bardzo nużąca; jak zobaczyć, że tak musi być?

Ale istnieje wiele różnych elips wyśrodkowanych na i przechodzących przez x 1 i x 2 :0x1x2

wprowadź opis zdjęcia tutaj

P2: Co określa „poprawną” elipsę? Moje pierwsze przypuszczenie było takie, że jest to elipsa z najdłuższą możliwą osią główną; ale wydaje się to błędne (są elipsy z osią główną dowolnej długości).

Jeśli są odpowiedzi na pytania Q1 i Q2, chciałbym również wiedzieć, czy uogólniają się one na przypadek więcej niż dwóch zmiennych.

ameba mówi Przywróć Monikę
źródło
Czy to prawda, że ​​istnieje wiele możliwych elips, które są wyśrodkowane na początku (gdzie przecinają się x1 i x2) i nawiązują kontakt z odległymi końcami x1 i x2? Myślałem, że będzie tylko jeden. Z pewnością może być wiele, jeśli rozluźnisz jedno z tych 3 kryteriów (centrum i 2 końce).
Gung - Przywróć Monikę
Istnieje wiele elips wyśrodkowanych na początku przechodzących przez dwa wektory. Ale dla wektorów nieliniowych i ( c , d ) istnieje tylko jeden, który jest kołem jednostkowym w podwójnej podstawie. Jest to miejsce x ( a , b ) + y ( c , d ) gdzie | ( a c b d ) - 1 ( x y ) | 2 = 1.(a,b)(c,d)x(a,b)+y(c,d)
|(acbd)1(xy)|2=1.
Wiele można się nauczyć z jego głównych osi.
whuber
3
variable space (I borrowed this term from ttnphns)- @amoeba, musisz się mylić. Zmienne jako wektory w (pierwotnie) przestrzeni n-wymiarowej nazywane są przestrzenią podmiotową (n obiektów jako osie „zdefiniowały” przestrzeń, podczas gdy zmienne p „obejmują” ją). Przeciwnie, przestrzeń zmienna jest wręcz przeciwna - tj. Zwykły wykres rozrzutu. W ten sposób określa się terminologię w statystykach wielowymiarowych. (Jeśli w uczeniu maszynowym jest inaczej - nie wiem tego - wtedy jest o wiele gorzej dla uczniów).
ttnphns 11.11.15
Zauważ, że oba są przestrzeniami wektorowymi: wektory (= punkty) to, co rozpiętości, osie to, co definiuje kierunki i wycięcia pomiarowe. Zwróć też uwagę na dialektykę: obie „spacje” są w rzeczywistości tą samą przestrzenią (sformułowane inaczej dla bieżącego celu). Widać to na przykład na ostatnim zdjęciu w tej odpowiedzi . Po nałożeniu dwóch preparatów otrzymujesz biplot lub podwójną spację.
ttnphns
My guess is that x1, x2, p1, p2 all lie on one ellipseJaka może być tutaj heurystyczna pomoc z elipsy? Wątpię.
ttnphns

Odpowiedzi:

5

Wszystkie podsumowania wyświetlane w pytaniu zależą tylko od jego drugich chwil; lub, równoważnie, na macierz X ' X . Ponieważ myślimy o X jako chmurze punktów - każdy punkt jest rzędem XXXXXX --we może zapytać, co proste operacje na tych punktach zachować właściwości .XX

Jednym z nich jest na lewo-wielowarstwowego o o n x n matrycy U , które wytwarzają jeszcze n × 2 matrycy U X . Aby to zadziałało, konieczne jest, abyXn×nUn×2UX

XX=(UX)UX=X(UU)X.

Równość jest gwarantowana, gdy jest macierzą tożsamości n × n : to znaczy, gdy U jest ortogonalna .UUn×nU

Jest dobrze znane (i łatwe do wykazania), że matryce ortogonalne są produktami odbić i rotacji euklidesowych (tworzą grupę odbicia w ). Wybierając obroty mądrze, możemy znacznie uprościć X . Jednym z pomysłów jest skupienie się na obrotach, które wpływają jednocześnie tylko na dwa punkty w chmurze. Są to szczególnie proste,ponieważ możemy je wizualizować.RnX

Szczególnie, pozwala i ( x j , y j ) dwa różne punkty niezerowych w chmurze, stanowiących wierszy więcej I i J o X(xi,yi)(xj,yj)ijX . Obrót przestrzeni kolumny wpływający tylko na te dwa punkty przekształca jeRn

{(xi,yi)=(cos(θ)xi+sin(θ)xj,cos(θ)yi+sin(θ)yj)(xj,yj)=(sin(θ)xi+cos(θ)xj,sin(θ)yi+cos(θ)yj).

Sprowadza się to do rysowania wektorów i ( y i , y j ) w płaszczyźnie i obracania ich o kąt θ . (Zauważ, jak mieszają się tutaj współrzędne! X idą ze sobą, a y idą razem. Zatem efekt tego obrotu w R n zwykle nie będzie wyglądał jak obrót wektorów ( x i , y i ) i ( x j , y j )(xi,xj)(yi,yj)θxyRn(xi,yi)(xj,yj) jak narysowano w R2 ).

Wybierając odpowiedni kąt, możemy wyzerować dowolny z tych nowych elementów. Aby być konkretnym, wybierzmy , abyθ

{cos(θ)=±xixi2+xj2sin(θ)=±xjxi2+xj2.

To sprawia, że . Wybierz znak, aby y j0 . Nazwijmy tę operację, która zmienia punkty i oraz j w chmurze reprezentowanych przez X , gamma (xj=0yj0ijX .γ(i,j)

Rekurencyjne zastosowanie do X spowoduje, że pierwsza kolumna X będzie niezerowa tylko w pierwszym rzędzie. Geometrycznie przeniesiemy wszystko oprócz jednego punktu w chmurze na oś y . Teraz możemy zastosować pojedynczy obrót, potencjalnie obejmujący współrzędne 2 , 3 , , n w - 1γ(1,2),γ(1,3),,γ(1,n)XXy2,3,,n , aby wycisnąć tenRnn1wskazuje na jeden punkt. Równoważnie został zredukowany do postaci blokuX

X=(x1y10z),

z i z oba wektory kolumnowe o współrzędnych n - 1 , w taki sposób, że0zn1

XX=((x1)2x1y1x1y1(y1)2+||z||2).

This final rotation further reduces X to its upper triangular form

X=(x1y10||z||0000).

In effect, we can now understand X in terms of the much simpler 2×2 matrix (x1y10||z||) created by the last two nonzero points left standing.

To illustrate, I drew four iid points from a bivariate Normal distribution and rounded their values to

X=(0.090.120.310.630.740.231.80.39)

This initial point cloud is shown at the left of the next figure using solid black dots, with colored arrows pointing from the origin to each dot (to help us visualize them as vectors).

Figure

The sequence of operations effected on these points by γ(1,2),γ(1,3), and γ(1,4) results in the clouds shown in the middle. At the very right, the three points lying along the y axis have been coalesced into a single point, leaving a representation of the reduced form of X. The length of the vertical red vector is ||z||; the other (blue) vector is (x1,y1).

Notice the faint dotted shape drawn for reference in all five panels. It represents the last remaining flexibility in representing X: as we rotate the first two rows, the last two vectors trace out this ellipse. Thus, the first vector traces out the path

(1)θ  (cos(θ)x1,cos(θ)y1+sin(θ)||z||)

while the second vector traces out the same path according to

(2)θ  (sin(θ)x1,sin(θ)y1+cos(θ)||z||).

We may avoid tedious algebra by noting that because this curve is the image of the set of points {(cos(θ),sin(θ)):0θ<2π} under the linear transformation determined by

(1,0)  (x1,0);(0,1)  (y1,||z||),

it must be an ellipse. (Question 2 has now been fully answered.) Thus there will be four critical values of θ in the parameterization (1), of which two correspond to the ends of the major axis and two correspond to the ends of the minor axis; and it immediately follows that simultaneously (2) gives the ends of the minor axis and major axis, respectively. If we choose such a θ, the corresponding points in the point cloud will be located at the ends of the principal axes, like this:

Figure 2

Because these are orthogonal and are directed along the axes of the ellipse, they correctly depict the principal axes: the PCA solution. That answers Question 1.


The analysis given here complements that of my answer at Bottom to top explanation of the Mahalanobis distance. There, by examining rotations and rescalings in R2, I explained how any point cloud in p=2 dimensions geometrically determines a natural coordinate system for R2. Here, I have shown how it geometrically determines an ellipse which is the image of a circle under a linear transformation. This ellipse is, of course, an isocontour of constant Mahalanobis distance.

Another thing accomplished by this analysis is to display an intimate connection between QR decomposition (of a rectangular matrix) and the Singular Value Decomposition, or SVD. The γ(i,j) are known as Givens rotations. Their composition constitutes the orthogonal, or "Q", part of the QR decomposition. What remained--the reduced form of X--is the upper triangular, or "R" part of the QR decomposition. At the same time, the rotation and rescalings (described as relabelings of the coordinates in the other post) constitute the DV part of the SVD, X=UDV. The rows of U, incidentally, form the point cloud displayed in the last figure of that post.

Finally, the analysis presented here generalizes in obvious ways to the cases p2: that is, when there are just one or more than two principal components.

whuber
źródło
Though your answer may be exemplary on it own it is unclear - to me - how it relates to the question. You are speaking throughout about the data cloud X (and vectors you rotate are data points, rows of X). But the question was about the reduced subject space. In other words, we don't have any data X, we have only 2x2 covariance or scatter matrix X'X.
ttnphns
(cont.) We represent the 2 variables summarized by it as 2 vectors with lengths = sqrt(diagonal elements) and angle = their correlation. Then the OP askes how can we purely geometrically solve for the principal components. In other words, OP wants to explain geometrically eigendecomposition (eigenvalues & eigenvectors or, better, loadings) of 2x2 symmetric covariance matrix.
ttnphns
(cont.) Please look on the second picture there. What the OP of the current question seeks for is to find geometric (trigonometric etc) tools or tricks to draw the vectors P1 and P2 on that pic, having only vectors X and Y as given.
ttnphns
1
@ttnphns. Nie ma znaczenia, jaki jest punkt początkowy: pierwsza połowa tej odpowiedzi pokazuje, że można zmniejszyć dowolną chmurę punktówXdo pary punktów, które zawierają wszystkie informacje oXX. The second half demonstrates that pair of points is not unique, but nevertheless each lies on the same ellipse. It gives an explicit construction of that ellipse beginning with any two-point representation of XX (such as the pair of blue vectors shown in the question). Its major and minor axes yield the PCA solution (the red vectors).
whuber
1
Thanks, I'm beginning to understand your thought. (I wish you added subtitles / synopsis right in your answer about the two "halves" of it, just to structure it for a reader.)
ttnphns