Jakie są założenia analizy czynnikowej?

Chcę sprawdzić, czy naprawdę zrozumiałem [klasyczną, liniową] analizę czynnikową (FA), zwłaszcza założenia przyjęte przed (i być może po) FA.

Niektóre dane powinny być początkowo skorelowane i istnieje między nimi możliwa liniowa zależność. Po przeprowadzeniu analizy czynnikowej dane są zwykle rozkładane (rozkład dwuwymiarowy dla każdej pary) i nie ma korelacji między czynnikami (wspólnymi i specyficznymi), ani korelacji między zmiennymi z jednego czynnika i zmiennymi z innych czynników.

Czy to jest poprawne?

correlation factor-analysis assumptions dimensionality-reduction Sihem
źródło

Odpowiedzi:

Założenia danych wejściowych liniowego FA (nie mówię tu o wewnętrznych założeniach / właściwościach modelu FA ani o sprawdzeniu jakości dopasowania wyników ).

Skale wejściowe (przedział lub stosunek) . Oznacza to, że elementy są albo miarami ciągłymi, albo są konceptualizowane jako ciągłe, podczas gdy są mierzone w dyskretnej skali ilościowej. Brak danych porządkowych w liniowym FA ( odczyt ). Należy również unikać danych binarnych (patrz to , to ). Liniowy FA zakłada, że ukryte wspólne i niepowtarzalne czynniki są ciągłe . Dlatego obserwowane zmienne, które ładują, również powinny być ciągłe.
Korelacje są liniowe . Liniowy FA można wykonać w oparciu o dowolną macierz asocjacyjną typu SSCP : korelacja Pearsona, kowariancja, cosinus itp. (Chociaż niektóre metody / implementacje mogą ograniczać się tylko do korelacji Pearsona). Zauważ, że są to wszystkie produkty algebry liniowej. Pomimo tego, że wartość współczynnika kowariancji odzwierciedla więcej niż tylko liniowość w relacji, modelowanie w liniowym FA ma charakter liniowy nawet przy zastosowaniu kowariancji: zmienne są liniowymi kombinacjami czynnikówa zatem w wynikowych skojarzeniach zakłada się liniowość. Jeśli widzisz / uważasz, że przeważają powiązania nieliniowe - nie wykonuj liniowej FA ani nie próbuj linearyzować ich najpierw przez niektóre transformacje danych. I nie opieraj liniowego FA na korelacjach Spearmana lub Kendalla (cz. 4 tam ).
Bez wartości odstających - tak jak w przypadku każdej innej metody. Korelacja Pearsona i podobne skojarzenia typu SSCP są wrażliwe na wartości odstające, więc uważaj.
Występują dość wysokie korelacje . FA jest analizą korelacji - jaki jest jej zastosowanie, gdy wszystkie lub prawie wszystkie korelacje są słabe? - nie używać. Jednak „względnie wysoka korelacja” zależy od kierunku studiów. Jest też ciekawy i zróżnicowany pytanie czy bardzo wysokie korelacje powinny być akceptowane (efekt nich na PCA, na przykład, jest omawiane tutaj ). Aby przetestować statystycznie, czy dane nie są nieskorelowane , można zastosować test sferyczności Bartletta .
Częściowe korelacje są słabe, a czynnik można wystarczająco zdefiniować . FA zakłada, że czynniki są bardziej ogólne niż tylko ładowanie par skorelowanych przedmiotów. W rzeczywistości istnieje nawet rada, aby nie wyciągać czynników ładujących przyzwoicie mniej niż 3 przedmioty w eksploracyjnym FA; aw potwierdzającym FA tylko struktura 3+ ma gwarantowaną strukturę. Problem techniczny ekstrakcji zwany skrzynką Heywooda ma, jako jeden z powodów, zbyt małą liczbę czynników zależnych od czynnika. Kaiser-Meyer-Olkin ( KMO ) „miara adekwatności próbkowania” ocenia dla ciebie, jak słabe są częściowe korelacje w danych względem pełnych korelacji; można go obliczyć dla każdego elementu i dla całej macierzy korelacji.
p $^1$ n observations > p variablesn>>p
Dystrybucja . Zasadniczo liniowy FA nie wymaga normalności danych wejściowych. Umiarkowanie wypaczone rozkłady są dopuszczalne. Bimodalność nie jest przeciwwskazaniem. Rzeczywiście zakłada się normalność dla unikalnych czynników w modelu (służą one jako błędy regresyjne) - ale nie dla wspólnych czynników i danych wejściowych ( patrz także). Mimo to normalność danych na wielu odmianach może być wymagana jako dodatkowe założenie przez niektóre metody ekstrakcji (mianowicie maksymalne prawdopodobieństwo) i przez wykonanie pewnych testów asymptotycznych.

$^1$

ttnphns
źródło

, czy mógłbyś przeczytać ten post , wyglądało to trochę inaczej.

WhiteGirl

Jeśli Binary data should also be avoided, po co jeszcze możemy zastosować metodę analizy czynnikowej binary data?

Kittygirl

drodzy ttnphns; Zauważam, że nie wspominasz, że dane są przyjmowane jako normalne, a inne w Internecie wskazują, że normalność nie jest wymagana. Moje pytanie brzmi, czy ukryte zmienne są przyjmowane jako normalne, a obserwacje są modelowane jako ważona suma czynników, czy to nie oznacza normalnego rozkładu obserwacji? (Przepraszam, jestem pewien, że to głupie pytanie)

user2957945

@ user2957945, ust. 7 mówi o normalności. Założenie normalności jest konieczne w przypadku niektórych metod ekstrakcji czynników oraz w przypadku niektórych testów statystycznych fakultatywnie towarzyszących analizie czynników. Na twoje pytanie: Tak, jeśli czynniki są rozkładane normalnie, a błędy również normalnie, to znaczy, że zmienne manifestacyjne są również normalne.

ttnphns

ah, dzięki @ttnphns; przepraszam, że przeszkadzam - nie bardzo wiem, jak mi się to udało. Doceniam Twoją pomoc.

user2957945

W większości przypadków analiza czynnikowa jest przeprowadzana bez żadnych testów statystycznych per se. Jest o wiele bardziej subiektywny i interpretacyjny niż metody takie jak regresja, modelowanie równań strukturalnych i tak dalej. I generalnie są to testy wnioskowania, które pochodzą z założeń: aby wartości p i przedziały ufności były prawidłowe, założenia te muszą zostać spełnione.

Teraz, jeśli metoda wyboru liczby czynników jest ustawiona na metodę największej wiarygodności, wówczas przyjmuje się założenie, że z tym idzie: że zmienne wprowadzone do analizy czynnikowej będą miały rozkład normalny.

To, że zmienne wejściowe będą miały niezerowe korelacje, jest rodzajem założenia, że bez prawdy wyniki analizy czynnikowej będą (prawdopodobnie) bezużyteczne: żaden czynnik nie pojawi się jako ukryta zmienna za pewnym zestawem zmiennych wejściowych.

O ile „nie ma korelacji między czynnikami (wspólnymi i szczegółowymi) i nie ma korelacji między zmiennymi z jednego czynnika a zmiennymi z innych czynników”, nie są to założenia przyjęte przez analityków czynników, chociaż czasami oba warunki (lub przybliżenie tego) może być pożądane. Ten ostatni, gdy się utrzymuje, jest znany jako „prosta struktura”.

Jest jeszcze jeden warunek, który czasem jest traktowany jako „założenie”: że korelacje rzędu zerowego (waniliowe) między zmiennymi wejściowymi nie są zatapiane przez duże korelacje cząstkowe. W skrócie oznacza to, że relacje powinny być mocne dla niektórych par i słabe dla innych; w przeciwnym razie wyniki będą „mętne”. Jest to związane z celowością prostej struktury i może być faktycznie ocenione (choć nie formalnie „przetestowane”) za pomocą statystyki Kaiser-Meyer-Olkin lub KMO. Wartości KMO w pobliżu .8 lub .9 są zwykle uważane za bardzo obiecujące dla wyników analizy czynnikowej, podczas gdy KMO w pobliżu .5 lub .6 są znacznie mniej obiecujące, a te poniżej .5 mogą skłonić analityka do ponownego przemyślenia swojej strategii.

rolando2
źródło

Jak czytam, ta analiza czynnikowa zaczyna się od pewnej korelacji ze zmiennymi i staramy się, aby ta korelacja była coraz bardziej wyraźna

Sihem

Po zastosowaniu analizy czynnikowej, jeśli zastosowaliśmy rotację ortogonalną, będziemy mieć pewność, że nie ma korelacji między czynnikami

Sihem,

Założenia leżące u podstaw eksploracyjnej analizy czynnikowej to:
• Poziom pomiaru przedziału lub stosunku
• Losowe próbkowanie
• Zależność między obserwowanymi zmiennymi jest liniowa
• Rozkład normalny (każda obserwowana zmienna)
• Rozkład normalny dwuwymiarowy (każda para obserwowanych zmiennych)
• Normalność wielowymiarowa
Powyżej od plik SAS

Chris Kelly
źródło