Czy komponenty PCA (w analizie głównych komponentów) są statystycznie niezależne, jeśli nasze dane są zwykle dystrybuowane na wielu odmianach? Jeśli tak, jak można to wykazać / udowodnić?
Pytam, ponieważ widziałem ten post , w którym pierwsza odpowiedź brzmi:
PCA nie przyjmuje wyraźnego założenia Gaussa. Znajduje wektory własne, które maksymalizują wariancję wyjaśnioną w danych. Ortogonalność głównych składników oznacza, że wyszukuje najbardziej nieskorelowane składniki w celu wyjaśnienia możliwie największej zmienności danych. W przypadku wielowymiarowych rozkładów gaussowskich zerowa korelacja między składnikami oznacza niezależność, co nie jest prawdą w przypadku większości rozkładów.
Odpowiedź jest podana bez dowodu i wydaje się sugerować, że PCA produkuje niezależne komponenty, jeśli dane są wielowymiarowe normalne.
Powiedzmy, że nasze dane są próbkami z:
umieszczamy próbek w rzędach naszej macierzy próbek , więc to . Obliczenie SVD dla (po wyśrodkowaniu) daje
Czy możemy powiedzieć, że kolumny są statystycznie niezależne, a także rzędy ? Czy jest to ogólnie prawdą, tylko dla , czy w ogóle nie jest prawdą?
źródło
Odpowiedzi:
Zacznę od intuicyjnej demonstracji.
Wygenerowałem obserwacji (a) z silnie nie Gaussowskiego rozkładu 2D i (b) z 2D rozkładu Gaussa. W obu przypadkach wyśrodkowałem dane i wykonałem rozkład wartości w liczbie pojedynczej X = U S V ⊤ . Następnie dla każdego przypadku wykonałem wykres rozproszenia pierwszych dwóch kolumn U , jedna względem drugiej. Należy pamiętać, że jest to zwykle kolumny U S , które są nazywane „główne składniki” (PC); kolumny U są komputerami skalowanymi w celu uzyskania normy jednostkowej; Nadal, w tej odpowiedzi skupię się na kolumnach U . Oto wykresy rozrzutu:n=100 X=USV⊤ U US U U
Myślę, że takie stwierdzenia, jak: „Składniki PCA są nieskorelowane” lub „Składniki PCA są zależne / niezależne” są zwykle tworzone o jednej konkretnej macierzy próbki i odnoszą się do korelacji / zależności między wierszami (patrz np . Odpowiedź @ ttnphns tutaj ). PCA daje transformowaną macierz danych U , gdzie wiersze są obserwacjami, a kolumny zmiennymi PC. Tj. Możemy zobaczyć U jako próbkę i zapytać, jaka jest próbka korelacji między zmiennymi PC. Ta przykładowa macierz korelacji jest oczywiście podana przez U ⊤ U = IX U U U⊤U=I , co oznacza, że przykładowe korelacje między zmiennymi PC są zerowe. To ludzie mają na myśli, mówiąc, że „PCA diagonalizuje macierz kowariancji” itp.
Wniosek 1: we współrzędnych PCA dowolne dane mają zerową korelację.
Dotyczy to obu powyższych wykresów rozrzutu. Jednakże, jest oczywiste, że te dwie zmienne PC i y w lewym (nie Gaussa) rozrzutu nie są niezależne; chociaż mają zerową korelację, są silnie zależne i w rzeczywistości powiązane przez y ≈ a ( x - b ) 2 . I rzeczywiście wiadomo, że nieskorelowane nie oznacza niezależnościx y y≈a(x−b)2 .
Przeciwnie, dwie zmienne PC i yx y po prawej stronie (Gaussa) rozrzutu wydają się być „prawie niezależny”. Obliczenie wzajemnej informacji między nimi (co jest miarą zależności statystycznej: zmienne niezależne mają zerową informację wzajemną) za pomocą dowolnego standardowego algorytmu da wartość bardzo zbliżoną do zera. Nie będzie dokładnie zero, ponieważ nigdy nie jest dokładnie zerowy dla dowolnej skończonej wielkości próbki (chyba że jest dokładnie dostrojony); ponadto istnieją różne metody obliczania wzajemnej informacji o dwóch próbkach, dające nieco inne odpowiedzi. Możemy jednak oczekiwać, że każda metoda da oszacowanie wzajemnej informacji, które jest bardzo bliskie zeru.
Wniosek 2: we współrzędnych PCA dane Gaussa są „prawie niezależne”, co oznacza, że standardowe szacunki zależności będą w przybliżeniu równe zeru.
Pytanie to jest jednak trudniejsze, na co wskazuje długi łańcuch komentarzy. Rzeczywiście, @whuber prawidłowo wskazuje, że PCA zmiennych i y (kolumny U ) musi być statystycznie zależne: słupy muszą być o długości jednostkowej i muszą być prostopadłe i wprowadza to zależność. Np. Jeśli jakaś wartość w pierwszej kolumnie jest równa 1 , to odpowiednia wartość w drugiej kolumnie musi wynosić 0 .x y U 1 0
To prawda, ale jest to praktycznie istotne tylko dla bardzo małych , takich jak np. N = 3 (przy n = 2 po centrowaniu jest tylko jeden komputer). Dla każdej rozsądnej wielkości próbki, takiej jak n = 100 pokazanej na mojej powyższej ilustracji, efekt zależności będzie znikomy; kolumny U są (skalowanymi) rzutami danych Gaussa, więc są one również gaussowskie, co praktycznie uniemożliwia, aby jedna wartość była bliska 1 (wymagałoby to, aby wszystkie inne elementy n - 1 były bliskie 0n n=3 n=2 n=100 U 1 n−1 0 , co nie jest trudne rozkład Gaussa).
Wniosek 3: ściśle mówiąc, dla każdego skończonego dane Gaussa we współrzędnych PCA są zależne; jednak ta zależność jest praktycznie nieistotna dla żadnego n ≫ 1 .n n≫1
Możemy to sprecyzować, biorąc pod uwagę, co dzieje się w granicy . W granicy nieskończonej wielkości próbki macierz kowariancji próbki jest równa macierzy kowariancji populacji Σ . Tak więc, jeśli wektor danych X jest próbkowany z → X ~ N ( 0 , Σ ) , a następnie zmienne komputerowe są → Y = X - 1 / 2 V ⊤ → X / ( n - 1 ) (gdzie Λ i Vn→∞ Σ X X⃗ ∼N(0,Σ) Y⃗ =Λ−1/2V⊤X⃗ /(n−1) Λ V są wartościami własnymi i wektorami własnymi ) i → Y ∼ N ( 0 , I / ( n - 1 ) ) . Tzn. Zmienne PC pochodzą z wielowymiarowego Gaussa z kowariancją ukośną. Ale każdy wielowymiarowy Gaussa z ukośną macierzą kowariancji rozkłada się na iloczyn jednowymiarowego Gaussa, a to jest definicja statystycznej niezależności :Σ Y⃗ ∼N(0,I/(n−1))
Wniosek 4: asymptotycznie ( ) zmienne PC danych gaussowskich są statystycznie niezależne jako zmienne losowe, a wzajemne informacje o próbce dadzą zerową wartość populacji.n→∞
Powinienem zauważyć, że można inaczej zrozumieć to pytanie (patrz komentarze @whuber): aby uznać całą macierz za zmienną losową (uzyskaną z losowej macierzy X za pomocą określonej operacji) i zapytać, czy są jakieś dwa określone elementy U i J and U k l z dwóch różnych kolumn są statystycznie niezależne w różnych czerpie z X . Zbadaliśmy to pytanie wU X Uij Ukl X późniejszym wątku .
Oto wszystkie cztery wstępne wnioski z powyższego:
źródło