Jak wybielić dane za pomocą analizy głównych składników?

18

Chcę przekształcić moje dane tak, aby wariancje były równe jeden, a kowariancje były równe zero (tzn. Chcę wybielić dane). Ponadto średnie powinny wynosić zero.X

Wiem, że się tam dostanę, wykonując standaryzację Z i transformację PCA, ale w jakiej kolejności mam to zrobić?

Powinienem dodać, że skomponowana transformacja wybielająca powinna mieć postać .xWx+b

Czy istnieje metoda podobna do PCA, która wykonuje dokładnie obie te transformacje i daje mi wzór powyższej formy?

Angelorf
źródło
(Mój pierwszy komentarz opierał się na błędnym odczytaniu twojego pytania.) PCA daje zero kowariancji; jeśli chcesz, możesz później ujednolicić komputery osobiste. Brzmi dziwnie, ale możesz to zrobić.
Nick Cox
@NickCox Być może wydaje się to dziwne, ponieważ przekształcone dane są wówczas kuliste, co wydaje się mało pouczające. Muszę jednak poznać transformację, a nie wynik końcowy. Nadal nie wiem, jak wyglądałaby transformacja. Nadal jednak czytam na PCA.
Angelorf

Odpowiedzi:

31

Po pierwsze, otrzymujesz średnią zero, odejmując średnią μ=1Nx .

Po drugie, otrzymujesz zero kowariancji, wykonując PCA. Jeśli jest macierzą kowariancji twoich danych, to PCA sprowadza się do wykonania kompozycji cyfrowej , gdzie to macierz obrotu ortogonalnego złożona z wektorów własnych i to macierz diagonalna z wartościami własnymi na przekątnej. Matryca daje obrót potrzebny do dekorelacji danych (tj. Odwzorowuje oryginalne cechy na główne komponenty).ΣΣ=UΛUUΣΛU

Po trzecie, po obrocie każdy komponent będzie miał wariancję podaną przez odpowiednią wartość własną. Aby więc wariancje równe , musisz podzielić przez pierwiastek kwadratowy z .1Λ

Podsumowując, transformacja wybielająca to . Możesz otworzyć nawiasy, aby uzyskać formularz, którego szukasz.xΛ1/2U(xμ)


Aktualizacja. Zobacz także ten późniejszy wątek, aby uzyskać więcej informacji: Jaka jest różnica między wybielaniem ZCA a wybielaniem PCA?

ameba mówi Przywróć Monikę
źródło
2
Myślę, że musisz podzielić przez pierwiastki kwadratowe wartości własnych, ponieważ jest to kwestia skalowania według SD, a nie wariancji.
Nick Cox
@NickCox: tak, oczywiście, że masz rację. Poprawiłem swoją odpowiedź. Dziękuję Ci!
ameba mówi Przywróć Monikę
1
Empirycznie zweryfikowałem formułę. Dziękuję za pomoc!
Angelorf