Jaki jest związek między analizą niezależnych składników a analizą czynnikową?

67

Jestem nowy w Independent Component Analysis (ICA) i mam tylko podstawowe zrozumienie tej metody. Wydaje mi się, że ICA jest podobna do analizy czynnikowej (FA) z jednym wyjątkiem: ICA zakłada, że ​​obserwowane zmienne losowe są liniową kombinacją niezależnych składników / czynników niegaussowskich, podczas gdy klasyczny model FA zakłada, że ​​obserwowane zmienne losowe są liniową kombinacją skorelowanych komponentów / czynników gaussowskich.

Czy powyższe informacje są dokładne?

stats_student
źródło
1
Warto przyjrzeć się tej odpowiedzi na inne pytanie ( PCA iteracyjnie znajduje kierunki największej wariancji; ale jak znaleźć całą podprzestrzeń o największej wariancji? ).
Piotr Migdal

Odpowiedzi:

72

wprowadź opis zdjęcia tutaj

FA, PCA i ICA są „powiązane”, ponieważ wszystkie trzy szukają wektorów podstawowych, na podstawie których dane są rzutowane, tak aby zmaksymalizować kryteria wstawiania tutaj. Pomyśl o wektorach bazowych jako o enkapsulacji kombinacji liniowych.

Z2NNw=[0.14]y

y=wTZ

y1N

Więc jakie są te kryteria?

Kryteria drugiego rzędu:

W PCA znajduje się wektory bazowe, które „najlepiej wyjaśniają” wariancję danych. Pierwszym (tj. Najwyżej sklasyfikowanym) wektorem podstawowym będzie ten, który najlepiej pasuje do wszystkich wariancji danych. Drugi ma również to kryterium, ale musi być ortogonalny do pierwszego, i tak dalej i tak dalej. (Okazuje się, że te wektory podstawowe dla PCA to nic innego jak wektory własne macierzy kowariancji danych).

W FA istnieje różnica między nim a PCA, ponieważ FA jest generatywna, podczas gdy PCA nie. Widziałem FA jako „PCA z hałasem”, gdzie „hałas” nazywa się „specyficznymi czynnikami”. Niemniej jednak ogólny wniosek jest taki, że PCA i FA opierają się na statystykach drugiego rzędu (kowariancji) i niczym powyżej.

Kryteria wyższego rzędu:

W ICA ponownie znajdujesz wektory bazowe, ale tym razem potrzebujesz wektorów bazowych, które dają wynik, tak że ten wynikowy wektor jest jednym z niezależnych składników oryginalnych danych. Można to zrobić poprzez maksymalizację wartości bezwzględnej znormalizowanej kurtozy - statystyki czwartego rzędu. Oznacza to, że wyświetlasz swoje dane na pewnym wektorze bazowym i mierzysz kurtozę wyniku. Zmieniasz nieco wektor bazowy (zwykle poprzez wynurzenie gradientowe), a następnie ponownie mierzysz kurtozę itp. W końcu dojdziesz do wektora bazowego, który daje wynik, który ma najwyższą możliwą kurtozę, a to jest twoja niezależna składnik.

Górny schemat powyżej może pomóc ci go zwizualizować. Widać wyraźnie, jak wektory ICA odpowiadają osiom danych (niezależnie od siebie), podczas gdy wektory PCA próbują znaleźć kierunki, w których wariancja jest zmaksymalizowana. (Trochę jak wypadkowa).

Jeśli na górnym schemacie wektory PCA wyglądają tak, jakby prawie odpowiadały wektorom ICA, to po prostu przypadek. Oto kolejna instancja dotycząca różnych danych i macierzy mieszania, gdzie są one bardzo różne. ;-)

wprowadź opis zdjęcia tutaj

Spacey
źródło
2
Wydaje się, że znasz obie metody. Czy jako osoba kompetentna możesz odpowiedzieć, czy te metody z natury sugerują, że wektory podstawowe są ortogonalne? Jak można odkryć pierwotne lub niezależne komponenty, które mają niezerową projekcję względem siebie, coś w rodzaju dwóch chmur punktów zorientowanych w przybliżeniu pod kątem 45 stopni względem siebie?
mbaitoff
2
@mbaitoff ICA odzyska ortogonalny zbiór wektorów, tak. Po drugie, kiedy masz, jak pytasz, dwa sygnały, które mają niezerową projekcję względem siebie - dokładnie to ICA próbuje cofnąć. Dlatego wektory końcowe znalezione przez ICA są względem siebie ortogonalne. Następnie, gdy rzutujesz swoje dane na te dwa nowe wektory, będą one względem siebie ortogonalne.
Spacey
1
@Tarantula Zadałem pytanie dotyczące tego, o czym mówię: stats.stackexchange.com/questions/6575/… , możesz zobaczyć ilustrację, i.stack.imgur.com/U6fWb.png . Nie rozumiem, w jaki sposób ortogonalna podstawa opisałaby te dwie chmury. Jest dla mnie oczywiste, że dwa wektory opisujące główne kierunki oscylacji nie są ortogonalne.
mbaitoff
@mbaitoff Wziąłeś swoje dane z dwóch czujników i wykreśliłeś je względem siebie, i widzisz te dwa tryby, więc wiesz, że są one przynajmniej skorelowane. Potem pojawia się pytanie, jak możesz rzutować wszystkie punkty, które tam masz, tak aby były one niezależne? (tj. na podstawie ortogonalnej, jak znalezisko ICA). To właśnie znajduje dla ciebie ICA. Nie rozumiem, co masz na myśli, mówiąc: „Nie rozumiem, w jaki sposób ortogonalna podstawa opisałaby te dwie chmury”. Dlaczego nie?
Spacey
@Tarantula Och, teraz rozumiem, co to znaczy! Pomyślałem, że to było jak „znalezienie dwóch wektorów ortogonalnych na oryginalnym wykresie”, podczas gdy w rzeczywistości oznacza to „znalezienie dwóch wektorów na oryginalnym wykresie, na której rzutowanie będzie prostopadłe (niezależne)”.
mbaitoff
31

Nie do końca. Analiza czynnikowa działa z drugimi momentami i naprawdę ma nadzieję, że dane są gaussowskie, tak więc na współczynniki prawdopodobieństwa i takie rzeczy nie wpływa normalność. Z drugiej strony ICA jest motywowane pomysłem, że po dodaniu rzeczy dostajesz coś normalnego, dzięki CLT, i naprawdę ma nadzieję, że dane są nienormalne, dzięki czemu można wyodrębnić niestandardowe składniki im. Aby wykorzystać nienormalność, ICA próbuje zmaksymalizować czwarty moment liniowej kombinacji danych wejściowych:

maxa:a=11ni[a(xix¯)]4

Jeśli już, ICA należy porównać do PCA, co maksymalizuje drugi moment (wariancja) znormalizowanej kombinacji wejść.

StasK
źródło
ładna i chrupiąca odpowiedź
Subhash C. Davar
jaki jest czwarty moment tutaj? PL.EXPLAIN.
Subhash C. Davar
@ subhashc.davar Czwarty moment to kurtoza - tj. stopień, w jakim dane były albo cięższe, albo jaśniejsze, niż rozkład normalny. en.wikipedia.org/wiki/Kurtosis
javadba