Algorytm PCA można sformułować w kategoriach macierzy korelacji (załóżmy, że dane zostały już znormalizowane i rozważamy jedynie rzut na pierwszy komputer). Funkcję celu można zapisać jako:
To jest w porządku i używamy mnożników Lagrangian, aby go rozwiązać, tj. Przepisując go jako:
co jest równoważne z
i stąd ( patrz tutaj na Mathworld ) wydaje się być równa
Ale to mówi, aby zmaksymalizować odległość między punktem i linią, a z tego, co tu przeczytałem , jest to niepoprawne - powinno to być , a nie . Gdzie jest mój błąd?
Czy ktoś może mi pokazać związek między maksymalizowaniem wariancji w rzutowanej przestrzeni a minimalizowaniem odległości między punktem a linią?
pca
optimization
Cam.Davidson.Pilon
źródło
źródło
Odpowiedzi:
Niech będzie wyśrodkowaną macierzą danych o nX n obserwacjami w rzędach. Niech będzie jego macierzą kowariancji. Niech będzie wektorem jednostkowym określającym oś w przestrzeni zmiennych. Chcemy, aby była pierwszą osią główną.w wΣ=X⊤X/(n−1) w w
Zgodnie z pierwszym podejściem pierwsza oś główna maksymalizuje wariancję rzutu (wariancja pierwszego głównego elementu). Ta odmiana jest podana przezV a r ( X w ) = w ⊤ X ⊤ X w / ( n - 1 ) = w ⊤ Σ w .Xw
Zgodnie z drugim podejściem pierwsza oś główna minimalizuje błąd rekonstrukcji międzyX w w ⊤ w ‖ X - X w w ⊤ ‖ 2X a jego rekonstrukcją , tj. Sumą kwadratów odległości między oryginalnymi punktami i ich rzutami na . Kwadrat błędu rekonstrukcji podaje
Xww⊤ w
Zwróć uwagę na znak minus przed terminem głównym. Z tego powodu minimalizacja błędu rekonstrukcji sprowadza się do maksymalizacji , co jest wariantem. Zatem minimalizacja błędu rekonstrukcji jest równoważna maksymalizacji wariancji; oba preparaty dają to samow⊤Σw w .
źródło