W przeciwieństwie do analizy głównych komponentów rozwiązania modeli analizy czynnikowej niekoniecznie są zagnieżdżone. Oznacza to, że ładunki (na przykład) dla pierwszego czynnika niekoniecznie będą identyczne, gdy tylko pierwszy czynnik zostanie wyodrębniony w porównaniu z pierwszymi dwoma czynnikami.
Mając to na uwadze, rozważ przypadek, w którym masz zestaw zmiennych przejawionych, które są wysoce skorelowane i (przez teoretyczną znajomość ich zawartości) powinny być kierowane przez jeden czynnik. Wyobraź sobie, że eksploracyjne analizy czynnikowe (według dowolnej metryki, którą preferujesz: analiza równoległa, wykres piargowy, wartości własne> 1 itd.) Zdecydowanie sugerują, że istnieją czynniki: duży czynnik pierwotny i mały czynnik wtórny. Jesteś zainteresowany wykorzystaniem zmiennych manifestu i rozwiązania czynnikowego do oszacowania (tj. Uzyskania wyników czynnikowych) wartości uczestników dla pierwszego czynnika. W tym scenariuszu lepiej byłoby:
- Dopasuj model czynnikowy, aby wyodrębnić tylko czynnik i uzyskać oceny czynnikowe (itp.) Lub
- dopasować model czynników, aby wyodrębnić oba czynniki, uzyskać oceny czynników dla czynników, ale wyrzucić / zignorować wyniki dla drugiego czynnika?
W zależności od tego, która z tych metod jest lepsza, dlaczego? Czy są jakieś badania na ten temat?
źródło
Is is always better to extract more factors when they exist?
nie jest zbyt jasny. Zawsze lepiej jest wyodrębnić tyle, ile istnieje. Niedopasowanie lub nadmierne dopasowanie zniekształca „prawdziwą” ukrytą strukturę ze względu na wielowymiarowy i nie zagnieżdżony charakter analizy wspomnianej przez Ciebie. Problem polega na tym, że nie wiemy dokładnie, ile czynników zawiera nasze dane. I czy dane te mają tyle samo, ile populacji.Odpowiedzi:
Problem, o którym wspominasz, to temat „przybliżonej jednowymiarowości” podczas budowania instrumentów do testowania psychologicznego, o czym dość często dyskutowano w literaturze w latach 80-tych. Inspiracja istniała w przeszłości, ponieważ praktycy chcieli używać tradycyjnych modeli teorii odpowiedzi na przedmioty (IRT) dla swoich przedmiotów, a wówczas te modele IRT ograniczały się wyłącznie do pomiaru cech jednowymiarowych. Tak więc testowanie wielowymiarowości miało być uciążliwością, której (miejmy nadzieję) można było uniknąć lub zignorować. To właśnie doprowadziło do stworzenia technik analizy równoległej w analizie czynnikowej (Drasgow i Parsons, 1983) oraz metod DETECT.
Konsekwencjami ignorowania dodatkowych cech / czynników, innych niż oczywiste dopasowanie niewłaściwego modelu do danych (tj. Ignorowanie informacji o potencjalnym niedopasowaniu modelu; choć może to oczywiście być trywialne), jest to, że oszacowania cechy czynnika dominującego staną się stronnicze i dlatego mniej wydajny. Wnioski te są oczywiście zależne od tego, w jaki sposób właściwości dodatkowych cech (np. Czy są one skorelowane z wymiarem pierwotnym, czy mają silne obciążenia, ile jest obciążeń krzyżowych itp.), Ale ogólnym tematem jest to, że szacunki wtórne dla uzyskania wyników cechy pierwotnej będzie mniej skuteczny. Zobacz raport techniczny tutaj dla porównania pomiędzy miss-wyposażone jednowymiarowej modelu i modelu bi-czynnika; raport techniczny wydaje się dokładnie tym, czego szukasz.
Z praktycznego punktu widzenia stosowanie kryteriów informacyjnych może być pomocne przy wyborze najbardziej optymalnego modelu, a także ogólnie statystyk dopasowania modelu (RMSEA, CFI itp.), Ponieważ konsekwencje ignorowania informacji wielowymiarowych wpłyną negatywnie na ogólne dopasowanie do danych . Ale oczywiście ogólne dopasowanie modelu jest tylko jednym ze wskazań do zastosowania nieodpowiedniego modelu dla dostępnych danych; jest całkiem możliwe, że stosowane są niewłaściwe formy funkcjonalne, takie jak nieliniowość lub brak monotoniczności, dlatego też odpowiednie elementy / zmienne powinny być zawsze sprawdzane.
Zobacz także :
Drasgow, F. and Parsons, CK (1983). Zastosowanie jednowymiarowych modeli teorii odpowiedzi na dane do danych wielowymiarowych. Applied Psychological Measurement, 7 (2), 189-199.
Drasgow, F. i Lissak, RI (1983). Zmodyfikowana analiza równoległa: procedura badania utajonej wymiarowości dychotomicznie punktowanych odpowiedzi na przedmioty. Journal of Applied Psychology, 68, 363-373.
Levent Kirisci, Tse-chi Hsu i Lifa Yu (2001). Odporność programów do szacowania parametrów pozycji na założenia jednowymiarowości i normalności. Stosowany pomiar psychologiczny, 25 (2), 146-162.
źródło
Jeśli naprawdę nie chcesz używać drugiego czynnika, powinieneś po prostu użyć modelu jednoczynnikowego. Zastanawia mnie jednak twoja uwaga, że ładunki pierwszego czynnika zmienią się, jeśli użyjesz drugiego czynnika.
Najpierw zajmiemy się tym stwierdzeniem. Jeśli użyjesz głównych składników do wyodrębnienia czynników i nie użyjesz obrotu czynnika, wówczas ładunki się nie zmienią - być może będzie to podlegać skalowaniu (lub całkowitemu odwróceniu: jeśli jest współczynnikiem, to jest uzasadnionym sposobem wyrażenia go jako dobrze). Jeśli użyjesz ekstrakcji maksymalnego prawdopodobieństwa i / lub rotacji czynników, obciążenia mogą zależeć od liczby wyodrębnionych czynników.- xx −x
Następnie wyjaśnienie skutków rotacji. Nie jestem dobry w rysowaniu, więc spróbuję cię przekonać słowami. Zakładam, że twoje dane są (w przybliżeniu) normalne, więc wyniki czynnikowe są również w przybliżeniu normalne. Jeśli wyodrębnisz jeden czynnik, otrzymasz jednowymiarowy rozkład normalny, jeśli wyodrębnisz dwa czynniki, otrzymasz dwuwymiarowy rozkład normalny.
Gęstość rozkładu dwuwymiarowego z grubsza wygląda jak kapelusz, ale dokładny kształt zależy od skalowania, a także od współczynnika korelacji. Załóżmy więc, że oba składniki mają wariancję jednostkową. W nieskorelowanym przypadku dostajesz ładne sombrero z krzywymi poziomów przypominającymi koła. Zdjęcie jest tutaj . Korelacja „zmiażdżyła” czapkę, dzięki czemu bardziej przypomina kapelusz napoleoński .
Załóżmy, że twój oryginalny zestaw danych miał trzy wymiary i chcesz z tego wyodrębnić dwa czynniki. Trzymajmy się również normalności. W tym przypadku gęstość jest obiektem czterowymiarowym, ale krzywe poziomu są trójwymiarowe i można je przynajmniej wizualizować. W przypadku nieskorelowanym krzywe poziomu są sferyczne (jak piłka nożna). W przypadku korelacji krzywe poziomów zostaną ponownie zniekształcone w piłkę nożną, prawdopodobnie niedopompowaną, tak że grubość szwów będzie mniejsza niż grubość w pozostałych kierunkach.
Jeśli wyodrębnisz dwa czynniki za pomocą PCA, całkowicie spłaszczysz piłkę nożną w elipsę (i rzutujesz każdy punkt danych na płaszczyznę elipsy). Niechroniony pierwszy czynnik odpowiada długiej osi elipsy, drugi czynnik jest do niej prostopadły (tj. Krótka oś). Obrót następnie wybiera układ współrzędnych w obrębie tej elipsy , aby spełnić inne przydatne kryteria.
Jeśli wyodrębnisz tylko jeden czynnik, obrót jest niemożliwy, ale masz gwarancję, że wyodrębniony współczynnik PCA odpowiada długiej osi elipsy.
źródło
fa()
np. Nie używał ich od lat. Inne metody pozwolą uzyskać rozwiązania zagnieżdżone, co jest łatwe do zweryfikowania za pomocą oprogramowania i zestawu danych FA. Ze względu na porównywalność oba rozwiązania można uznać za niezabezpieczone. FWIW, jestem zaznajomiony z ideą sferycznych i eliptycznych rozkładów MVN.Dlaczego nie miałbyś użyć czegoś takiego jak Lavaan lub MPlus, aby uruchomić dwa modele (model jednowymiarowy i model dwuwymiarowy dopasowany do wyników EFA) i porównać względne i bezwzględne wskaźniki dopasowania różnych modeli (tj. Kryteria informacyjne - AIC i BIC, RMSEA, SRMR, CFI / TLI)? Pamiętaj, że jeśli pójdziesz tą drogą, nie będziesz chciał używać PCA do EFA, a raczej główne czynniki. Ktoś naprawdę zainteresowany pomiarami osadziłby CFA w pełnym modelu równania strukturalnego.
Edycja: Podejście, które rozważam, polega raczej na ustaleniu, ile ukrytych zmiennych faktycznie tłumaczy zestaw elementów. Jeśli chcesz uzyskać najlepszą ocenę większego współczynnika, głosowałbym za zastosowaniem wyników czynników z modelu CFA z lepszym dopasowaniem, w zależności od tego, co to jest.
źródło