Czy CCA między dwoma identycznymi zestawami danych jest równoważne PCA w tym zestawie danych?

9

Czytanie Wikipedii o kanonicznej analizie korelacji (CCA) dla dwóch losowych wektorówX i Y, Zastanawiałem się, czy odpowiedź głównego składnika (PCA) jest taka sama jak CCA, kiedy X=Y?

Tim
źródło
Wyjaśnij to bardziej: 1) vectors X and YCzy to dwie zmienne (kolumny danych) lub dwa przypadki (wiersze); biorąc pod uwagę, że przeprowadzimy analizy zmiennych. 2) X and Y are the sameCzy chcesz powiedzieć, że X = Y lub w inny sposób?
ttnphns
@ttnphns: 1) X i Yto dwa losowe wektory. Są to dwa wektory zmiennych losowych, dwa zestawy kolumn danych, a nie dwa przypadki (wiersze). 2)X=Y.
Tim
Jeśli każdy zestaw składa się z jednej zmiennej, istnieje jedna korelacja kanoniczna, która jest dokładnie r Pearsona między nimi; a CCA staje się regresją liniową X przez Y i odwrotnie. Rozkład tego r za pomocą PCA to nieco inna historia. PCA i CCA to różne analizy.
ttnphns
Cześć, @Tim, zastanawiam się, czy moja odpowiedź była przydatna, czy może nadal masz jakieś pytania? Jeśli tak, chętnie to wyjaśnię.
ameba
@amoeba: Tak, to prawda. Nie mam teraz dalszych pytań i przeczytam twoją odpowiedź później. Dziękuję za odpowiedź. + 1
Tim

Odpowiedzi:

6

Pozwolić X być n×p1 i Y być n×p2 macierze danych, reprezentujące dwa zestawy danych z n próbki (tj. obserwacje losowych wektorów wierszy X i Y) w każdym z nich.

CCA szuka liniowej kombinacji p1 zmienne w X i liniowa kombinacja p2 zmienne w Ytak, że są maksymalnie skorelowane między sobą; następnie szuka następnej pary, pod warunkiem zerowej korelacji z pierwszą parą; itp.

W razie X=Y (i p1=p2=p), dowolna kombinacja liniowa w jednym zbiorze danych będzie trywialnie korelowana 1z tą samą kombinacją liniową w innym zbiorze danych. Więc wszystkie pary CCA będą miały korelacje1, a kolejność par jest dowolna. Jedynym pozostałym ograniczeniem jest to, że kombinacje liniowe powinny być nieskorelowane między sobą. Istnieje nieskończona liczba sposobów wyborupnieskorelowane kombinacje liniowe (zauważ, że wagi nie muszą być ortogonalne wp-wymiarowa przestrzeń) i każda z nich wygeneruje prawidłowe rozwiązanie CCA. Jednym z takich sposobów jest rzeczywiście PCA, ponieważ dowolne dwa komputery mają zerową korelację.

Tak więc rozwiązanie PCA rzeczywiście będzie poprawnym rozwiązaniem CCA, ale w tym przypadku istnieje nieskończona liczba równorzędnie dobrych rozwiązań CCA.


Matematycznie CCA szuka właściwego (a) i lewo (b) wektory pojedyncze CXX1/2CXYCYY1/2, co w tym przypadku jest równe I, przy czym każdy wektor jest wektorem własnym. Więca=bmoże być dowolny. CCA otrzymuje następnie liniowe wagi kombinacji jakoCXX1/2a i CYY1/2b. W tym przypadku sprowadza się to do przyjęcia arbitralnej podstawy i przekształcenia jejCXX1/2, które rzeczywiście wygenerują nieskorelowane kierunki .

ameba
źródło