Co maksymalizują pierwsze

12

W analizie głównych składników pierwsze głównych składników to k ortogonalne kierunki o maksymalnej wariancji. Innymi słowy, pierwszy główny składnik jest wybrany jako kierunek maksymalnej wariancji, drugi główny składnik jest wybrany jako kierunek ortogonalny do pierwszego z maksymalną wariancją i tak dalej.kk

Czy istnieje podobna interpretacja analizy czynnikowej? Na przykład myślę, że pierwsze czynników to czynniki, które najlepiej wyjaśniają pozaczątkowe składniki oryginalnej macierzy korelacji (w sensie, powiedzmy, kwadratu błędu między pierwotną macierzą korelacji a macierzą korelacji zdefiniowaną przez czynniki). Czy to prawda (czy jest coś podobnego, co możemy powiedzieć)?k

raegtin
źródło
Chociaż zgadzam się z prawie wszystkim, co @NRH napisał w swojej odpowiedzi (+1), krótka odpowiedź na twoje ostatnie pytanie brzmi: tak, to jest dokładnie prawda . Zauważ, że w FA współczynniki mogą być również wybrane jako ortogonalne, jak w PCA. Różnica polega tylko na odtworzeniu całej macierzy korelacji (PCA) w porównaniu z odtworzeniem tylko jej części poza przekątnej (FA). W przypadku dłuższej dyskusji zapoznaj się z moimi odpowiedziami w Warunkach podobieństwa PCA i analizy czynnikowej oraz Czy istnieje jakiś dobry powód, aby używać PCA zamiast EFA?
ameba mówi Przywróć Monikę
Nie jestem pewien, czy naprawdę FA „minimalizuje kwadratowe kowariancje (sumy)”, ponieważ istnieje kryterium rotacji / ekstrakcji zwane „MinRes”, którego uzasadnienie jest właśnie takie. Po co więc nadawać mu charakterystyczną nazwę? Być może standardowe procedury do znalezienia rozwiązania FA matematycznie uzyskają identyczne wyniki, jeśli liczba czynników k doskonale odtworzy kowariancje - ale ponieważ k jest wartością szacunkową, może być tak, że w przypadku niedoskonałości / niedoszacowania rozwiązanie FA nie jest identyczny z rozwiązaniem MinRes. Cóż, mówię: może być - chciałbym zobaczyć wyraźne stwierdzenie.
Gottfried Helms

Odpowiedzi:

7

PCA to przede wszystkim technika redukcji danych, której celem jest uzyskanie rzutu danych na przestrzeń o niższych wymiarach. Dwa równoważne cele to iteracyjne maksymalizowanie wariancji lub minimalizacja błędu rekonstrukcji. W rzeczywistości zostało to szczegółowo wyjaśnione w odpowiedziach na poprzednie pytanie .

Natomiast analiza czynnikowa jest przede wszystkim modelem generatywnym -wymiarowego wektora danych X, mówiącego, że X = A S + ϵ gdzie S jest q wymiarowym wektorem czynników utajonych, A jest p × k z k < p, a ϵ jest a wektor nieskorelowanych błędów. Macierz jest macierzą obciążeniach czynnik . Daje to specjalną parametryzację macierzy kowariancji jako Σ = A A T + DpX

X=AS+ϵ
SqAp×kk<pϵA
Σ=AAT+D
Problem z tym modelem polega na tym, że jest on sparametryzowany. Ten sam wzór uzyskuje się wówczas, otrzymuje A B dla każdego k x k macierzą ortogonalną, R , co oznacza, że te same czynniki nie są unikatowe. Różne propozycje istnieją rozwiązania tego problemu, ale istnieje nie jedno rozwiązanie, które daje czynniki z rodzaju interpretacji prosić. Popularnym wyborem jest rotacja varimax . Jednak zastosowane kryterium określa tylko obrót. Przestrzeń kolumny rozciągnięta przez A nie zmienia się, a ponieważ jest to część parametryzacji, określa się ją dowolną metodą zastosowaną do oszacowania ΣAARk×kRAΣ - powiedzmy, według maksymalnego prawdopodobieństwa w modelu Gaussa.

Dlatego, aby odpowiedzieć na pytanie, wybrane czynniki nie są podawane automatycznie na podstawie modelu analizy czynnikowej, więc nie ma jednej interpretacji pierwszych czynników. Musisz określić metodę zastosowaną do oszacowania (przestrzeń kolumny) A i metodę zastosowaną do wyboru obrotu. Jeśli D = σ 2 I (wszystkie błędy mają tę samą wariancję), rozwiązaniem MLE dla przestrzeni kolumny A jest przestrzeń łączona przez wiodące q głównych wektorów składowych, które można znaleźć przez rozkład liczby pojedynczej. Można oczywiście nie obracać i zgłaszać te główne wektory składowe jako czynniki. kAD=σ2IAq

kkk

NRH
źródło
1
Tak, rozumiem, że nie ma wyjątkowego wyboru czynników k (ponieważ możemy je obrócić i uzyskać ten sam model). Ale czy jakikolwiek wybór k czynników wybranych przez analizę czynnikową stanowi jakieś „maksymalne wyjaśnienie korelacji”?
raegtin
1
@raegtin, zredagowałem odpowiedź, aby wyjaśnić mój punkt widzenia, że ​​jest to model macierzy kowariancji. Jakikolwiek wybór czynników uzyskanych w wyniku rotacji jest równie dobry lub zły w wyjaśnianiu kowariancji w danych, ponieważ wytwarzają tę samą macierz kowariancji.
NRH
1
Dzięki za aktualizację, to jest świetne wyjaśnienie FA! Kiedy więc mówisz „celem modelu jest jak najlepsze wyjaśnienie kowariancji”, czy masz na myśli, że czynniki k naprawdę maksymalizują ilość wyjaśnionej kowariancji?
raegtin
1
@raegtin, tak, widzę ten model jako model macierzy kowariancji, a kiedy oceniasz model, można powiedzieć, że maksymalizujesz ilość wyjaśnionej kowariancji.
NRH
@raegtin i NRH (+1 btw): tylko dla wyjaśnienia. Powyższe dwa komentarze są poprawne, jeśli przez „kowariancję” rozumiemy „nie-diagonalną część macierzy kowariancji”.
ameba mówi Przywróć Monikę
3

@RAEGTIN, uważam, że myślisz dobrze. Po wyodrębnieniu i wcześniejszej rotacji każdy kolejny czynnik uwzględnia coraz mniejszą kowariancję / korelację, tak jak każdy kolejny składnik odpowiada za coraz mniejszą wariancję: w obu przypadkach kolumny macierzy obciążeniowej A są uporządkowane w kolejności suma kwadratów elementów (ładunków) w nich. Obciążenie jest współczynnikiem korelacji bw i zmienną; dlatego można powiedzieć, że pierwszy czynnik wyjaśnia największą część „ogólnego” kwadratu rw macierzy R , drugi czynnik jest tutaj drugi itd. Różnica między FA a PCA jest jednak różna w przewidywaniu korelacji przez obciążenia: FA jest „skalibrowany” w celu przywrócenia R.całkiem drobno z tylko m wyekstrahowanymi czynnikami (m czynników <zmienne p), podczas gdy PCA jest niegrzeczny w przywracaniu go przez m składników, - potrzebuje wszystkich p składników, aby przywrócić R bez błędu.

PS Wystarczy dodać. W FA wartość ładowania „składa się” z czystej wspólnoty (część wariancji odpowiedzialnej za korelowanie), podczas gdy w PCA ładowanie jest mieszanką wspólności i niepowtarzalności zmiennej, a zatem przyjmuje zmienność.

ttnphns
źródło