Jak analiza czynnikowa wyjaśnia kowariancję, podczas gdy PCA wyjaśnia wariancję?

37

Oto cytat z książki Bishopa „Rozpoznawanie wzorców i uczenie maszynowe”, rozdział 12.2.4 „Analiza czynnikowa”:

wprowadź opis zdjęcia tutaj

Według wyróżnionej części analizy czynnika oddaje kowariancji pomiędzy zmiennymi w macierzy W . Zastanawiam się JAK ?

Oto jak to rozumiem. Powiedzmy, że x to obserwowana zmienna p wymiarowa, W to macierz obciążenia czynnikowego, a z to wektor wyniku czynnikowego. Następnie mamy

x=μ+Wz+ϵ,
czyli
(x1xp)=(μ1μp)+(||w1wm||)(z1zm)+ϵ,
a każda kolumna wWjest wektorem obciążenia czynnikowego
wi=(wi1wip).
Tutaj, jak napisałem,Wmamkolumn, co oznacza, żerozważanychjestmczynników.

Teraz tutaj jest punkt, w zależności od podświetlonej części, myślę, że obciążenia w każdej kolumnie wi wyjaśnić kowariancji w obserwowanych danych, prawda?

Na przykład, spójrzmy na pierwszy wektor obciążenia , dla 1 i , j , k p , jeśli w 1 i = 10 , w 1 j = 11 i w 1 k = 0,1 , to powiedziałbym x i i x j są silnie skorelowane, podczas gdy x k wydaje nieskorelowane ze sobą , mam rację?w11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

A jeśli w ten sposób analiza czynnikowa wyjaśnia kowariancję między obserwowanymi cechami, to powiedziałbym, że PCA wyjaśnia również kowariancję, prawda?

awokado
źródło
1
Ponieważ wykres @ ttnphns odnosi się do reprezentacji przestrzeni tematycznej , oto jeden samouczek na temat zmiennej przestrzeni i przestrzeni tematycznej: BTW, wcześniej nie wiedziałem o wykresie przestrzeni tematycznej , teraz go rozumiem i oto jeden samouczek na ten temat: amstat.org/ publikacje / jse / v10n1 / yu / biplot.html . ;-)
awokado
1
Chciałbym również zauważyć, że działka ładująca, która pokazuje ładunki, jest faktycznie przestrzenią przedmiotową. Wyświetlanie zarówno przestrzeni zmiennych, jak i tematycznych w jednym jest dwupisem. Niektóre zdjęcia to pokazują stats.stackexchange.com/a/50610/3277 .
ttnphns
Oto pytanie dotyczące terminologii „powszechna wariancja” i „wspólna wariancja”: stats.stackexchange.com/q/208175/3277 .
ttnphns

Odpowiedzi:

45

Rozróżnienie między analizą głównych składników a analizą czynnikową zostało omówione w licznych podręcznikach i artykułach na temat technik wielowymiarowych. Możesz znaleźć pełny wątek , nowszy i dziwne odpowiedzi, również na tej stronie.

Nie zamierzam tego szczegółowo robić. Udzieliłem już zwięzłej i dłuższej odpowiedzi i chciałbym teraz wyjaśnić ją za pomocą pary zdjęć.

Reprezentacja graficzna

Poniższy obrazek wyjaśnia PCA . (Zostało to zapożyczone stąd, gdzie PCA porównuje się z regresją liniową i korelacjami kanonicznymi. Obraz jest reprezentacją wektorową zmiennych w przestrzeni tematycznej ; aby zrozumieć, co to jest, możesz chcieć przeczytać tam drugi akapit).

wprowadź opis zdjęcia tutaj

P1P2 X1X2X1X2cov12=|X1||X2|rr równa się cosinus kąta między ich wektorami.

a

P1P2a112+a212=|P1|2P1


X1X2

FP1

P1

wprowadź opis zdjęcia tutaj

F

P1F

aa12+a22=|F|2F

FFX1FX2X1FU1X2FU2U1U2FUU1X1U2X2X1X2FX1X2cov12>0cov12a

u2 a2F-wymiarowe, gdzie wspólnoty są rzutami zmiennych na przestrzeń, a obciążenia są zmiennymi, a także rzutami tych rzutów na czynniki, które obejmują przestrzeń. Wariancja wyjaśniona w analizie czynnikowej to wariancja w obrębie przestrzeni wspólnych czynników, inna niż przestrzeń zmiennych, w której składniki wyjaśniają wariancję. Przestrzeń zmiennych znajduje się w brzuchu połączonej przestrzeni: m wspólne + p unikalne czynniki.

wprowadź opis zdjęcia tutaj

X1X2X3F1F2X1C1U1X1X1X2X31

cov12a1a2poszczególne kowariancje za pomocą obciążeń. W modelu PCA tak nie jest, ponieważ PCA wyjaśnia nierozłożoną, mieszaną współliniową + ortogonalną natywną wariancję. Zarówno mocne składniki, które zachowujesz, jak i te, które upuszczasz, są połączeniami części (A) i (B); w związku z tym PCA może wykorzystywać swoje ładunki kowariancji tylko ślepo i rażąco.


Lista kontrastowa PCA vs FA

  • PCA: działa w przestrzeni zmiennych. FA: transkrybuje przestrzeń zmiennych.
  • PCA: przyjmuje zmienność taką, jaka jest. FA: zmienność segmentów na części wspólne i unikalne.
  • PCA: wyjaśnia wariancję niesegmentowaną, tj. Ślad macierzy kowariancji. FA: wyjaśnia tylko powszechną wariancję, stąd wyjaśnia (przywraca przez ładunki) korelacje / kowariancje, nieprzekątne elementy macierzy. (PCA wyjaśnia również elementy o przekątnej - ale mimochodem, po prostu - po prostu dlatego, że wariancje są dzielone w formie kowariancji).
  • PCA: komponenty są teoretycznie liniowymi funkcjami zmiennych, zmienne są teoretycznie liniowymi funkcjami komponentów. FA: zmienne są tylko teoretycznie liniowymi funkcjami czynników.
  • PCA: empiryczna metoda podsumowania; to zachowuje m składników. FA: teoretyczna metoda modelowania ; że pasuje ustaloną ilość m czynniki do danych; FA można przetestować (potwierdzenie FA).
  • PCA: jest najprostszym metrycznym MDS , ma na celu zmniejszenie wymiarów przy jednoczesnym pośrednim zachowaniu odległości między punktami danych, jak to możliwe. FA: Czynniki są podstawowymi ukrytymi cechami za zmiennymi, które zmuszają je do korelacji; analiza ma na celu ograniczenie danych tylko do tych esencji.
  • PCA: rotacja / interpretacja komponentów - czasami (PCA nie jest wystarczająco realistyczna jako model cech ukrytych). FA: rotacja / interpretacja czynników - rutynowo.
  • PCA: tylko metoda redukcji danych. FA: także metoda znajdowania klastrów spójnych zmiennych (dzieje się tak, ponieważ zmienne nie mogą korelować poza czynnikiem).
  • PCA: ładunki i wyniki są niezależne od liczby m „wydobytych” komponentów. FA: ładunki i wyniki zależą od liczby m czynników „wydobytych”.
  • PCA: wyniki składników są dokładnymi wartościami składników. FA: wyniki czynników są przybliżone do rzeczywistych wartości czynników i istnieje kilka metod obliczeniowych . Oceny czynnikowe leżą w przestrzeni zmiennych (podobnie jak komponenty), podczas gdy czynniki rzeczywiste (zawarte w ładunkach czynnikowych) nie.
  • PCA: zwykle żadnych założeń. FA: założenie słabych korelacji cząstkowych; czasami założenie normalności na wielu odmianach; niektóre zestawy danych mogą być „złe” do analizy, chyba że zostaną przekształcone.
  • PCA: algorytm niepiśmienny; zawsze udane. FA: algorytm iteracyjny (zazwyczaj); czasami problem braku konwergencji; osobliwość może stanowić problem.

1 X2X3U1X1X1X2X3U1X1X2UU

Podobnie jak w regresji współczynniki są współrzędnymi predyktorów zarówno zmiennych zależnych (zmiennych), jak i predykcji (prognoz) ( patrz rysunek w części „Regresja wielokrotna” i tutaj również), w FAładunki są współrzędnymi, zależnymi od czynników, zarówno obserwowanych zmiennych, jak i ich utajonych części - wspólnot. I dokładnie tak, jak w regresji, fakt ten nie spowodował, że zależne i predyktory stały się wzajemnymi podprzestrzeniami, - w FA podobny fakt nie powoduje, że obserwowane zmienne i czynniki utajone są wzajemnymi podprzestrzeniami. Czynnikiem jest „obcy” zmiennej w dość podobnym znaczeniu, ponieważ predyktor jest „obcy” reakcji zależnej. Ale w PCA jest inaczej: główne składniki pochodzą z obserwowanych zmiennych i są ograniczone do ich przestrzeni.

Powtórzmy więc jeszcze raz: m wspólne czynniki FA nie są podprzestrzenią zmiennych wejściowych p . Przeciwnie: zmienne tworzą podprzestrzeń w hiperprzestrzeni unii m + p ( m wspólne czynniki + p unikalne czynniki). Patrząc z tej perspektywy (tj. Przy przyciągniętych również unikalnych czynnikach) staje się jasne, że klasyczny FA nie jest techniką kurczenia się wymiarów , jak klasyczny PCA, ale jest techniką rozszerzania wymiarów . Niemniej jednak zwracamy uwagę tylko na niewielką ( m wymiarową wspólną) część tego wzdęcia, ponieważ ta część wyjaśnia wyłącznie korelacje.

ttnphns
źródło
Dzięki i fajna fabuła. Twoja odpowiedź ( stats.stackexchange.com/a/94104/30540 ) bardzo pomaga.
awokado
2
(+11) Świetna odpowiedź i ładne ilustracje! (Muszę poczekać jeszcze dwa dni, zanim zaoferuję nagrodę.)
chl
@chl, jestem taka wzruszona.
ttnphns
@ttnphns: „Przestrzeń tematyczna” (twoja płaszczyzna X) to przestrzeń z tyloma współrzędnymi, ile jest punktów danych w zbiorze danych, prawda? Więc jeśli zestaw danych (z dwiema zmiennymi X1 i X2) ma 100 punktów danych, to twoja płaszczyzna X jest 100-wymiarowa? Ale w jaki sposób czynnik F może leżeć poza nim? Czy wszystkie 100 punktów danych nie powinno mieć wartości wzdłuż współczynnika? A ponieważ nie ma innych punktów danych, wydaje się, że czynnik F musi leżeć w tej samej 100-wymiarowej „przestrzeni przedmiotowej”, tj. W płaszczyźnie X? czego mi brakuje?
ameba mówi Przywróć Monikę
1
@amoeba, twoje pytanie jest uzasadnione i tak, brakuje Ci czegoś. Zobacz akapit pierwszy: stats.stackexchange.com/a/51471/3277 . Zbędne wymiary są usuwane. Przestrzeń tematyczna ma tyle rzeczywistych, niepotrzebnych wymiarów, co odpowiednia przestrzeń zmienna. Zatem „przestrzeń X” jest płaska. Jeśli dodamy wymiar +1 (do pokrycia F), cała konfiguracja będzie pojedyncza, nierozwiązywalna. F zawsze wystaje poza zmienną przestrzeń.
ttnphns
10

„Wyjaśnienie kowariancji” a wyjaśnienie wariancji

Bishop w rzeczywistości oznacza bardzo prostą rzecz. W modelu analizy czynnikowej (równ. 12.64) macierz kowariancji będzie (równ. 12.65)To właśnie robi analiza czynnikowa : znajduje macierz ładunków i diagonalną macierz unikatowości, tak że faktycznie zaobserwowana macierz kowariancji jest jak najlepiej przybliżona przez :Zauważ, że ukośne elementy

p(x|z)=N(x|Wz+μ,Ψ)
x
C=WW+Ψ.
ΣC
ΣWW+Ψ.
C będzie dokładnie równy elementom przekątnym ponieważ zawsze możemy wybrać macierz diagonalną tak, aby błąd rekonstrukcji na przekątnej wynosił zero. Prawdziwym wyzwaniem jest następnie znaleźć obciążenia , które działają dobrze w przybliżeniu w niediagonalnych część o .ΣΨWΣ

Nieprzekątna część składa się z kowariancji między zmiennymi; stąd twierdzenie Bishopa, że ​​ładunki czynnikowe uwzględniają kowariancje. Ważne jest to, że trochę tu ładunki czynnikowe nie dbają w ogóle o indywidualnych wariancji (przekątna ).ΣΣ

Natomiast PCA są wektorami własnymi macierzy kowariancji skalowanymi według pierwiastków kwadratowych ich wartości własnych. Jeśli wybrano tylko głównych komponentów, to co oznacza, że PCA próbują odtworzyć całą macierz kowariancji (i nie tylko jego część po przekątnej jako FA). Jest to główna różnica między PCA i FA.W~Σm<k

ΣW~W~,

Dalsze komentarze

Uwielbiam rysunki w odpowiedzi @ ttnphns (+1), ale chciałbym podkreślić, że dotyczą one bardzo szczególnej sytuacji dwóch zmiennych. Jeśli rozważane są tylko dwie zmienne, macierz kowariancji wynosi , ma tylko jeden element o przekątnej, a więc zawsze jeden czynnik wystarcza do odtworzenia go w 100% (podczas gdy PCA potrzebuje dwóch składników). Jednak ogólnie, jeśli istnieje wiele zmiennych (powiedzmy kilkanaście lub więcej), to ani PCA, ani FA z małą liczbą składników nie będą w stanie w pełni odtworzyć macierzy kowariancji; co więcej, zwykle (choć niekoniecznie!) przyniosą podobne wyniki. Zobacz moją odpowiedź tutaj dla niektórych symulacji wspierających to twierdzenie i dla dalszych wyjaśnień:2×2

Więc chociaż rysunki @ ttnphns mogą sprawiać wrażenie, że PCA i FA są bardzo różne, moim zdaniem jest inaczej, z wyjątkiem bardzo niewielu zmiennych lub w niektórych innych szczególnych sytuacjach.

Zobacz też:

Wreszcie:

Na przykład, spójrzmy na pierwszy wektor ładowania , dla , jeśli , i , to Powiedziałbym, że i są wysoce skorelowane, podczas gdy wydaje się z nimi nieskorelowane, prawda?w11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

To niekoniecznie jest poprawne. Tak, w tym przykładzie i prawdopodobnie będą skorelowane, ale zapominasz o innych czynnikach. Być może wektor obciążenia drugiego czynnika ma duże wartości dla i ; oznaczałoby to, że prawdopodobnie również będą dobrze skorelowane. Aby wyciągnąć takie wnioski, należy wziąć pod uwagę wszystkie czynniki.xixjw2xixk

ameba mówi Przywróć Monikę
źródło
Uznając twoją wiedzę algebraiczną i na pewno witając twoją odpowiedź, nie byłbym jednak tak ostry, aby oznaczyć czyjąś poprzednią geometryczną odpowiedź (moją w tym przypadku) jako „potencjalnie wprowadzającą w błąd”. Słowa so hugely differentsą twoje, nie moje. Po drugie, it is in fact not the case, except with very few variablessamo w sobie jest objawieniem, które należy przetestować głębiej niż kiedyś.
ttnphns
Cześć @ttnphns, dzięki za komentarz. Nie mam absolutnie nic przeciwko geometrycznym odpowiedziom i tak naprawdę wolę je, gdy jest to możliwe! Naprawdę podoba mi się twoja odpowiedź, która ma moją +1. Sądzę jednak, że rozważenie tylko przypadku z dwiema zmiennymi sprawia, że ​​różnice między PCA a FA wydają się silniejsze niż w innym przypadku i może to potencjalnie (!) Wprowadzać w błąd. Masz jednak rację, ponieważ nie powinienem był używać takich słów w mojej odpowiedzi. Przepraszam i właśnie to zredagowałem. Żeby było zupełnie jasne: wszelka wrogość (jeśli ją odczuwasz!) Była całkowicie niezamierzona.
ameba mówi Przywróć Monikę
@amoeba Dlaczego niektórzy twierdzą, że FA zachowuje kowariancję, a PCA zachowuje wariancję. Z twojego postu rozumiem, że rzeczywiście FA zachowuje kowariancję, ale PA stara się zachować wariancję i kowariancję . Mówiąc, że PCA zachowuje wariancję, wynika z jej obiektywnej funkcji, a nie z wyjaśnień w twoim poście?
user_anon