Christopher Bishop pisze w swojej książce Pattern Recognition and Machine Learning dowód, że każdy kolejny główny składnik maksymalizuje wariancję projekcji do jednego wymiaru, po tym jak dane zostaną rzutowane do przestrzeni ortogonalnej na wcześniej wybrane komponenty. Inne pokazują podobne dowody.
Dowodzi to jednak tylko, że każdy kolejny element jest najlepszym rzutem na jeden wymiar, pod względem maksymalizacji wariancji. Dlaczego to oznacza, że wariancja rzutu mówiącego o 5 wymiarach jest maksymalizowana przy wybieraniu pierwszych takich elementów?
Odpowiedzi:
To, co rozumie się przez wariancję w kilku wymiarach („wariancja całkowita”), jest po prostu sumą wariancji w każdym wymiarze. Matematycznie jest to ślad macierzy kowariancji: ślad jest po prostu sumą wszystkich elementów ukośnych. Ta definicja ma różne ładne właściwości, np. Ślad jest niezmienny w ortogonalnych transformacjach liniowych, co oznacza, że jeśli obrócisz osie współrzędnych, całkowita wariancja pozostanie taka sama.
W książce Bishopa (rozdział 12.1.1) udowodniono, że wiodący wektor własny macierzy kowariancji podaje kierunek maksymalnej wariancji. Drugi wektor własny podaje kierunek maksymalnej wariancji pod dodatkowym ograniczeniem, że powinien on być prostopadły do pierwszego wektora własnego itp. (Wierzę, że stanowi to ćwiczenie 12.1). Jeśli celem jest maksymalizacja całkowitej wariancji w podprzestrzeni 2D, ta procedura jest zachłanną maksymalizacją: najpierw wybierz jedną oś, która maksymalizuje wariancję, a następnie drugą.
Twoje pytanie brzmi: dlaczego ta zachłanna procedura osiąga globalne maksimum?
Oto miły argument, który @whuber zasugerował w komentarzach. Najpierw wyrównajmy układ współrzędnych z osiami PCA. Macierz kowariancji staje się diagonalna: . Dla uproszczenia rozważymy ten sam przypadek 2D, tj. Jaka jest płaszczyzna o maksymalnej całkowitej wariancji? Chcemy udowodnić, że jest to płaszczyzna podana przez dwa pierwsze wektory podstawowe (o całkowitej wariancji ).Σ = d i a g (λja) λ1+λ2)
Rozważ płaszczyznę rozpiętą na dwóch wektorach ortogonalnych i . Całkowita wariancja w tej płaszczyźnie wynosiJest to więc liniowa kombinacja wartości własnych ze współczynnikami, które wszystkie są dodatnie, nie przekraczają (patrz poniżej) i sumują się do . Jeśli tak, to prawie oczywiste jest, że maksimum osiągnięto w .u v
Pozostaje tylko wykazać, że współczynniki nie mogą przekraczać . Zauważ, że , gdzie jest wektorem podstawowym. Wielkość ta jest kwadratową długością rzutu na płaszczyznę rozpiętą przez i . Dlatego musi być mniejsza niż kwadratowa długość która jest równa , QED.1 u2)k+v2)k= ( u ⋅ k)2)+ ( v ⋅ k)2) k k k u v k |k|2=1
Zobacz także odpowiedź @ kardynała na Jaka jest funkcja celu PCA? (kieruje się tą samą logiką).
źródło
Jeśli masz nieskorelowanych zmiennych losowych posortowanych w malejącej kolejności ich wariancji i poproszono Cię o wybranie z nich w taki sposób, aby wariancja ich sumy była zmaksymalizowana, czy zgodziłbyś się, że chciwe podejście polegające na wybraniu pierwszego osiągnęłoby to?N k k
Dane rzutowane na wektory własne macierzy kowariancji są zasadniczo nieskorelowanymi kolumnami danych i których wariancja jest równa odpowiednim wartościom własnym.N
Aby intuicja była bardziej zrozumiała, musimy powiązać maksymalizację wariancji z obliczeniem wektora własnego macierzy kowariancji o największej wartości własnej i powiązać rzut ortogonalny z usunięciem korelacji.
Druga zależność jest dla mnie jasna, ponieważ współczynnik korelacji między dwoma wektorami (średnia zero) jest proporcjonalny do ich iloczynu wewnętrznego.
Zależność między maksymalizacją wariancji a rozkładem własnym macierzy kowariancji jest następująca.
Załóżmy, żeD jest macierzą danych po wyśrodkowaniu kolumn. Musimy znaleźć kierunek maksymalnej wariancji. Dla dowolnego wektora jednostkowego wariancja po rzutowaniu wzdłuż wynosiv v
który jest maksymalizowany, jeżeli jest wektorem własnym odpowiadającym największej wartości własnej.v Cov(D)
źródło