Muszę zmniejszyć liczbę zmiennych, aby przeprowadzić analizę skupień. Moje zmienne są silnie skorelowane, więc pomyślałem o wykonaniu analizy czynnikowej PCA (analiza głównego składnika). Jeśli jednak użyję uzyskanych wyników, moje klastry nie będą całkiem poprawne (w porównaniu z poprzednimi klasyfikacjami w literaturze).
Pytanie:
Czy mogę użyć macierzy rotacji, aby wybrać zmienne o największym obciążeniu dla każdego komponentu / współczynnika i użyć tylko tych zmiennych dla mojego grupowania?
Pomocne będą również wszelkie odniesienia bibliograficzne.
Aktualizacja:
Kilka wyjaśnień:
Mój cel: muszę przeprowadzić analizę klastrów za pomocą algorytmu dwuetapowego przez SPSS, ale moje zmienne nie są niezależne, więc pomyślałem o odrzuceniu niektórych z nich.
Mój zestaw danych: pracuję nad 15 parametrami skalarnymi (moimi zmiennymi) 100 000 przypadków. Niektóre zmienne są silnie skorelowane ( Pearson)
Moja wątpliwość: ponieważ potrzebuję tylko zmiennych niezależnych, pomyślałem o przeprowadzeniu głównej analizy składowej (przepraszam: błędnie mówiłem o analizie czynnikowej w moim pierwotnym pytaniu, moim błędzie) i wybrałem tylko zmienne o największych obciążeniach dla każdego składnika. Wiem, że proces PCA przedstawia pewne arbitralne kroki, ale dowiedziałem się, że ten wybór jest w rzeczywistości podobny do „ metody B4 ” zaproponowanej przez IT Jolliffe (1972 i 2002) w celu wybrania zmiennych i zasugerowanej również przez JR King i DA Jackson w 1999 r. .
Pomyślałem więc, aby w ten sposób wybrać pewne podgrupy zmiennych niezależnych. Następnie użyję grup do przeprowadzenia różnych analiz skupień i porównuję wyniki.
Odpowiedzi:
Zrobię, zgodnie z moim zwyczajem, krok wstecz i zapytam, co dokładnie próbujesz zrobić. Analiza czynnikowa służy do wyszukiwania ukrytych zmiennych. Jeśli chcesz znaleźć ukryte zmienne i zgrupować je, to to, co robisz, jest poprawne. Ale mówisz, że po prostu chcesz zmniejszyć liczbę zmiennych - sugeruje to zamiast tego analizę głównych składników.
Jednak w obu przypadkach należy zinterpretować analizę skupień nowych zmiennych, a te nowe zmienne są po prostu ważonymi sumami starych.
Ile masz zmiennych? Jak są ze sobą skorelowane? Jeśli jest ich o wiele za dużo i są one bardzo silnie skorelowane, możesz poszukać wszystkich korelacji na pewnej bardzo dużej liczbie i losowo usunąć jedną zmienną z każdej pary. Zmniejsza to liczbę zmiennych i pozostawia zmienne takimi, jakie są.
Pozwólcie, że powtórzę również @StasK o potrzebie zrobienia tego w ogóle, a @ rolando2 o użyteczności znalezienia czegoś innego niż to, co zostało odkryte wcześniej. Jak mawiał mój ulubiony profesor w szkole, „jeśli nie jesteś zaskoczony, niczego się nie nauczyłeś”.
źródło
Jedną z metod przeprowadzania analizy czynnikowej i analizy skupień są modele mieszania równań strukturalnych. W tych modelach postuluje się istnienie osobnych modeli (w tym przypadku modeli czynnikowych) dla każdego klastra. Będziesz musiał mieć analizę średnią wraz z analizą kowariancji i zajmować się identyfikacją w większym stopniu niż w zwykłej analizie czynników waniliowych. Pomysł, do którego podszedł SEM, pojawia się w Jedidi i in. glin. (1997) i od strony klastrowania w klastrowaniu modelowym autorstwa Adriana Raftery'ego . Ten rodzaj analizy jest najwyraźniej dostępny w Mplus .
źródło
Nie sądzę, że chodzi o czystość i prostotę „poprawności”, ale raczej o to, czy osiągnie to, co chcesz zrobić. Podejście, które opisujesz, zakończy się grupowaniem według określonych czynników w rozwodniony sposób, ponieważ będziesz używał tylko jednego wskaźnika do reprezentowania każdego czynnika. Każdy taki wskaźnik stanowi niedoskonały element zastępujący ukryty czynnik ukryty. To jeden problem.
Inną kwestią jest to, że analiza sam czynnik, jak ja (i wiele innych), które opowiada , jest pełen subiektywnych decyzji dotyczących sposobów radzenia sobie z brakującymi danymi, liczba czynników wyodrębnić, jak wydobyć, czy i jak się obracać, a więc na. Dlatego może nie być jasne, że czynniki, które mogłeś wyodrębnić w szybki, domyślny dla oprogramowania sposób (jak myślę sugerowałeś) są „najlepsze” pod każdym względem.
Podsumowując, być może użyłeś rozwodnionej wersji czynników, które same w sobie są dyskusyjne jako najlepsze sposoby na scharakteryzowanie motywów leżących u podstaw twoich danych. Nie spodziewałbym się, że klastry wynikające z takich zmiennych wejściowych będą najbardziej pouczające lub najbardziej wyraźne.
Z drugiej strony wydaje się interesujące, że uważasz za problem członkostwo w klastrach / profile, które nie zgadzają się z tym, co znaleźli inni badacze. Czasami niepotwierdzające ustalenia mogą być bardzo zdrowe!
źródło
W twoim przypadku może się zdarzyć, że czynniki wyodrębnione w analizie czynnikowej mają kompensujące dodatnie i ujemne obciążenia z pierwotnych zmiennych. Zmniejszyłoby to zróżnicowanie, które jest celem grupowania.
Czy potrafisz podzielić każdy wyodrębniony czynnik na 2 - jeden mający tylko ładunki dodatnie, a drugi tylko ujemne?
Zamień wyniki czynnikowe dla każdego przypadku dla każdego czynnika na wyniki pozytywne i negatywne, a następnie spróbuj skupić się na tym nowym zestawie wyników.
Proszę wpisać wiersz, jeśli to Ci odpowiada.
źródło
Możesz skanować zarówno pod kątem wysokich wartości, jak i pod kątem niskich wartości i pozostawić wszystkie zmienne w czynnikach. W ten sposób nie ma potrzeby ograniczania czynników. Jeśli podzielisz Współczynnik 1 (powiedzmy) w określony sposób w oparciu o znaki obciążeń, w Czynniku 2 znaki mogą być zupełnie inne. Czy zatem podzieliłbyś czynnik 2 inaczej niż czynnik 1? To wydaje się być mylące.
źródło