Czy komponenty PCA wielowymiarowych danych Gaussa są statystycznie niezależne?

16

Czy komponenty PCA (w analizie głównych komponentów) są statystycznie niezależne, jeśli nasze dane są zwykle dystrybuowane na wielu odmianach? Jeśli tak, jak można to wykazać / udowodnić?

Pytam, ponieważ widziałem ten post , w którym pierwsza odpowiedź brzmi:

PCA nie przyjmuje wyraźnego założenia Gaussa. Znajduje wektory własne, które maksymalizują wariancję wyjaśnioną w danych. Ortogonalność głównych składników oznacza, że ​​wyszukuje najbardziej nieskorelowane składniki w celu wyjaśnienia możliwie największej zmienności danych. W przypadku wielowymiarowych rozkładów gaussowskich zerowa korelacja między składnikami oznacza niezależność, co nie jest prawdą w przypadku większości rozkładów.

Odpowiedź jest podana bez dowodu i wydaje się sugerować, że PCA produkuje niezależne komponenty, jeśli dane są wielowymiarowe normalne.

Powiedzmy, że nasze dane są próbkami z:

xN(μ,Σ)

umieszczamy n próbek x w rzędach naszej macierzy próbek X , więc X to n×m . Obliczenie SVD dla X (po wyśrodkowaniu) daje

X=USVT

Czy możemy powiedzieć, że kolumny U są statystycznie niezależne, a także rzędy VT ? Czy jest to ogólnie prawdą, tylko dla xN(μ,Σ) , czy w ogóle nie jest prawdą?

bill_e
źródło
1
stats.stackexchange.com/q/110508/3277 to podobne pytanie.
ttnphns
1
Nie rozumiem, w jaki sposób komputery można by uznać za „statystycznie niezależne” w więcej niż jednym wymiarze. W końcu z definicji każdy jest prostopadły do ​​wszystkich pozostałych; ta zależność funkcjonalna tworzy bardzo silną zależność statystyczną.
whuber
1
@amoeba Mam nadzieję, że konsekwentnie jasne jak wierny na pytanie, co mam wybrać, aby być jasno określone i jednoznaczne: ponieważ dane są przypadkowe, więc są wszystkie wpisy w U . Zastosowałem do nich definicję statystycznej niezależności. To wszystko. Twoim problemem wydaje się być to, że używasz słowa „nieskorelowane” w dwóch bardzo różnych zmysłach, nie zdając sobie z tego sprawy: na podstawie tego, jak zbudowane są kolumny U, są one geometrycznie ortogonalne jak wektory w R n , ale nie są oznacza niezależne losowe wektory! XUURn
whuber
1
@amoeba Masz rację - symulacja dość przekonująco pokazuje, że korelacja może być (silnie) niezerowa. Nie kwestionuję jednak tego, że „komponenty PCA są nieskorelowane” w sensie „korelacja” = „ortogonalny”, ani też nie twierdzę, że jakikolwiek konkretny podręcznik jest niepoprawny. Obawiam się, że takie stwierdzenie, właściwie zrozumiane, jest tak nieistotne dla pytania, że ​​wszystko, co może zrobić (i uczyniło), powoduje znaczne zamieszanie w obecnym kontekście.
whuber
1
@ Whuber, jestem pewien, że czekałeś na kolejną edycję mojej odpowiedzi! Oto jest. Wyraźnie potwierdzam twoje uwagi na temat zależności i stwierdzam, że kolumny asymptotycznie niezależne, jako mój główny punkt. Tutaj „asymptotycznie” odnosi się do liczby n obserwacji (wierszy). Mam wielką nadzieję, że będziemy w stanie się z tym zgodzić! Argumentuję również, że dla każdego rozsądnego n , takiego jak n = 100 , zależność między kolumnami jest „praktycznie nieistotna”. Wydaje mi się, że jest to kwestia bardziej kontrowersyjna, ale w mojej odpowiedzi staram się to uczynić dość precyzyjną. Unnn=100
ameba mówi Przywróć Monikę

Odpowiedzi:

23

Zacznę od intuicyjnej demonstracji.

Wygenerowałem obserwacji (a) z silnie nie Gaussowskiego rozkładu 2D i (b) z 2D rozkładu Gaussa. W obu przypadkach wyśrodkowałem dane i wykonałem rozkład wartości w liczbie pojedynczej X = U S V . Następnie dla każdego przypadku wykonałem wykres rozproszenia pierwszych dwóch kolumn U , jedna względem drugiej. Należy pamiętać, że jest to zwykle kolumny U S , które są nazywane „główne składniki” (PC); kolumny U są komputerami skalowanymi w celu uzyskania normy jednostkowej; Nadal, w tej odpowiedzi skupię się na kolumnach U . Oto wykresy rozrzutu:n=100X=USVUUSUU

PCA of Gaussian and non-Gaussian data

Myślę, że takie stwierdzenia, jak: „Składniki PCA są nieskorelowane” lub „Składniki PCA są zależne / niezależne” są zwykle tworzone o jednej konkretnej macierzy próbki i odnoszą się do korelacji / zależności między wierszami (patrz np . Odpowiedź @ ttnphns tutaj ). PCA daje transformowaną macierz danych U , gdzie wiersze są obserwacjami, a kolumny zmiennymi PC. Tj. Możemy zobaczyć U jako próbkę i zapytać, jaka jest próbka korelacji między zmiennymi PC. Ta przykładowa macierz korelacji jest oczywiście podana przez UU = IXUUUU=I, co oznacza, że ​​przykładowe korelacje między zmiennymi PC są zerowe. To ludzie mają na myśli, mówiąc, że „PCA diagonalizuje macierz kowariancji” itp.

Wniosek 1: we współrzędnych PCA dowolne dane mają zerową korelację.

Dotyczy to obu powyższych wykresów rozrzutu. Jednakże, jest oczywiste, że te dwie zmienne PC i y w lewym (nie Gaussa) rozrzutu nie są niezależne; chociaż mają zerową korelację, są silnie zależne i w rzeczywistości powiązane przez y a ( x - b ) 2 . I rzeczywiście wiadomo, że nieskorelowane nie oznacza niezależnościxyya(xb)2 .

Przeciwnie, dwie zmienne PC i yxy po prawej stronie (Gaussa) rozrzutu wydają się być „prawie niezależny”. Obliczenie wzajemnej informacji między nimi (co jest miarą zależności statystycznej: zmienne niezależne mają zerową informację wzajemną) za pomocą dowolnego standardowego algorytmu da wartość bardzo zbliżoną do zera. Nie będzie dokładnie zero, ponieważ nigdy nie jest dokładnie zerowy dla dowolnej skończonej wielkości próbki (chyba że jest dokładnie dostrojony); ponadto istnieją różne metody obliczania wzajemnej informacji o dwóch próbkach, dające nieco inne odpowiedzi. Możemy jednak oczekiwać, że każda metoda da oszacowanie wzajemnej informacji, które jest bardzo bliskie zeru.

Wniosek 2: we współrzędnych PCA dane Gaussa są „prawie niezależne”, co oznacza, że ​​standardowe szacunki zależności będą w przybliżeniu równe zeru.

Pytanie to jest jednak trudniejsze, na co wskazuje długi łańcuch komentarzy. Rzeczywiście, @whuber prawidłowo wskazuje, że PCA zmiennych i y (kolumny U ) musi być statystycznie zależne: słupy muszą być o długości jednostkowej i muszą być prostopadłe i wprowadza to zależność. Np. Jeśli jakaś wartość w pierwszej kolumnie jest równa 1 , to odpowiednia wartość w drugiej kolumnie musi wynosić 0 .xyU10

To prawda, ale jest to praktycznie istotne tylko dla bardzo małych , takich jak np. N = 3 (przy n = 2 po centrowaniu jest tylko jeden komputer). Dla każdej rozsądnej wielkości próbki, takiej jak n = 100 pokazanej na mojej powyższej ilustracji, efekt zależności będzie znikomy; kolumny U są (skalowanymi) rzutami danych Gaussa, więc są one również gaussowskie, co praktycznie uniemożliwia, aby jedna wartość była bliska 1 (wymagałoby to, aby wszystkie inne elementy n - 1 były bliskie 0nn=3n=2n=100U1n10 , co nie jest trudne rozkład Gaussa).

Wniosek 3: ściśle mówiąc, dla każdego skończonego dane Gaussa we współrzędnych PCA są zależne; jednak ta zależność jest praktycznie nieistotna dla żadnego n 1 .nn1

Możemy to sprecyzować, biorąc pod uwagę, co dzieje się w granicy . W granicy nieskończonej wielkości próbki macierz kowariancji próbki jest równa macierzy kowariancji populacji Σ . Tak więc, jeśli wektor danych X jest próbkowany z X ~ N ( 0 , Σ ) , a następnie zmienne komputerowe są Y = X - 1 / 2 V X / ( n - 1 ) (gdzie Λ i VnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛVsą wartościami własnymi i wektorami własnymi ) i YN ( 0 , I / ( n - 1 ) ) . Tzn. Zmienne PC pochodzą z wielowymiarowego Gaussa z kowariancją ukośną. Ale każdy wielowymiarowy Gaussa z ukośną macierzą kowariancji rozkłada się na iloczyn jednowymiarowego Gaussa, a to jest definicja statystycznej niezależności :ΣYN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

Wniosek 4: asymptotycznie ( ) zmienne PC danych gaussowskich są statystycznie niezależne jako zmienne losowe, a wzajemne informacje o próbce dadzą zerową wartość populacji.n

Powinienem zauważyć, że można inaczej zrozumieć to pytanie (patrz komentarze @whuber): aby uznać całą macierz za zmienną losową (uzyskaną z losowej macierzy X za pomocą określonej operacji) i zapytać, czy są jakieś dwa określone elementy U i J and U k l z dwóch różnych kolumn są statystycznie niezależne w różnych czerpie z X . Zbadaliśmy to pytanie wUXUijUklX późniejszym wątku .


Oto wszystkie cztery wstępne wnioski z powyższego:

  • We współrzędnych PCA wszystkie dane mają zerową korelację.
  • We współrzędnych PCA dane Gaussa są „prawie niezależne”, co oznacza, że ​​standardowe szacunki zależności będą wynosić około zera.
  • nn1
  • n
ameba mówi Przywróć Monikę
źródło
Piszesz „Jeśli jednak dane są wielowymiarowe Gaussa, to są one rzeczywiście niezależne”. „Oni” są głównymi składnikami i ich współczynnikami? Co rozumiesz przez PCA diagonalizujący macierz kowariancji? Dziękuję za odpowiedź!
bill_e
„Oni” odnoszą się do głównych składników (które są rzutami danych na kierunki maksymalnej wariancji). PCA szuka kierunków maksymalnej wariancji; okazuje się, że kierunki te podane są przez wektory własne macierzy kowariancji. Jeśli zmienisz współrzędne na „współrzędne PCA”, wówczas macierz kowariancji będzie ukośna, tak działa skład eigend. Odpowiednio macierzS.w SVD z twojego pytania jest macierz diagonalna. Również matrycaU is orthogonal, meaning that its covariance matrix is diagonal. All of that means that PCs have correlation zero.
amoeba says Reinstate Monica
Cool, thank you! The combination of your answer and this comment helps clear things up for me a lot. Can I edit your comment into your answer?
bill_e
I expanded the answer by incorporating the comment; see if you are happy with it now.
amoeba says Reinstate Monica
2
Interesting discussion! When I asked the question, my thought of statistical dependence was "if you know PC1, is it possible infer PC2?, etc." I will look more into independence tests based on mutual information now.
bill_e