W analizie głównych składników pierwsze głównych składników to k ortogonalne kierunki o maksymalnej wariancji. Innymi słowy, pierwszy główny składnik jest wybrany jako kierunek maksymalnej wariancji, drugi główny składnik jest wybrany jako kierunek ortogonalny do pierwszego z maksymalną wariancją i tak dalej.
Czy istnieje podobna interpretacja analizy czynnikowej? Na przykład myślę, że pierwsze czynników to czynniki, które najlepiej wyjaśniają pozaczątkowe składniki oryginalnej macierzy korelacji (w sensie, powiedzmy, kwadratu błędu między pierwotną macierzą korelacji a macierzą korelacji zdefiniowaną przez czynniki). Czy to prawda (czy jest coś podobnego, co możemy powiedzieć)?
pca
factor-analysis
raegtin
źródło
źródło
Odpowiedzi:
PCA to przede wszystkim technika redukcji danych, której celem jest uzyskanie rzutu danych na przestrzeń o niższych wymiarach. Dwa równoważne cele to iteracyjne maksymalizowanie wariancji lub minimalizacja błędu rekonstrukcji. W rzeczywistości zostało to szczegółowo wyjaśnione w odpowiedziach na poprzednie pytanie .
Natomiast analiza czynnikowa jest przede wszystkim modelem generatywnym -wymiarowego wektora danych X, mówiącego, że X = A S + ϵ gdzie S jest q wymiarowym wektorem czynników utajonych, A jest p × k z k < p, a ϵ jest a wektor nieskorelowanych błędów. Macierz jest macierzą obciążeniach czynnik . Daje to specjalną parametryzację macierzy kowariancji jako Σ = A A T + Dp X
Dlatego, aby odpowiedzieć na pytanie, wybrane czynniki nie są podawane automatycznie na podstawie modelu analizy czynnikowej, więc nie ma jednej interpretacji pierwszych czynników. Musisz określić metodę zastosowaną do oszacowania (przestrzeń kolumny) A i metodę zastosowaną do wyboru obrotu. Jeśli D = σ 2 I (wszystkie błędy mają tę samą wariancję), rozwiązaniem MLE dla przestrzeni kolumny A jest przestrzeń łączona przez wiodące q głównych wektorów składowych, które można znaleźć przez rozkład liczby pojedynczej. Można oczywiście nie obracać i zgłaszać te główne wektory składowe jako czynniki.k ZA D = σ2)ja ZA q
źródło
@RAEGTIN, uważam, że myślisz dobrze. Po wyodrębnieniu i wcześniejszej rotacji każdy kolejny czynnik uwzględnia coraz mniejszą kowariancję / korelację, tak jak każdy kolejny składnik odpowiada za coraz mniejszą wariancję: w obu przypadkach kolumny macierzy obciążeniowej A są uporządkowane w kolejności suma kwadratów elementów (ładunków) w nich. Obciążenie jest współczynnikiem korelacji bw i zmienną; dlatego można powiedzieć, że pierwszy czynnik wyjaśnia największą część „ogólnego” kwadratu rw macierzy R , drugi czynnik jest tutaj drugi itd. Różnica między FA a PCA jest jednak różna w przewidywaniu korelacji przez obciążenia: FA jest „skalibrowany” w celu przywrócenia R.całkiem drobno z tylko m wyekstrahowanymi czynnikami (m czynników <zmienne p), podczas gdy PCA jest niegrzeczny w przywracaniu go przez m składników, - potrzebuje wszystkich p składników, aby przywrócić R bez błędu.
PS Wystarczy dodać. W FA wartość ładowania „składa się” z czystej wspólnoty (część wariancji odpowiedzialnej za korelowanie), podczas gdy w PCA ładowanie jest mieszanką wspólności i niepowtarzalności zmiennej, a zatem przyjmuje zmienność.
źródło