Czy mogę użyć PCA do dokonania wyboru zmiennych do analizy skupień?

12

Muszę zmniejszyć liczbę zmiennych, aby przeprowadzić analizę skupień. Moje zmienne są silnie skorelowane, więc pomyślałem o wykonaniu analizy czynnikowej PCA (analiza głównego składnika). Jeśli jednak użyję uzyskanych wyników, moje klastry nie będą całkiem poprawne (w porównaniu z poprzednimi klasyfikacjami w literaturze).

Pytanie:

Czy mogę użyć macierzy rotacji, aby wybrać zmienne o największym obciążeniu dla każdego komponentu / współczynnika i użyć tylko tych zmiennych dla mojego grupowania?

Pomocne będą również wszelkie odniesienia bibliograficzne.

Aktualizacja:

Kilka wyjaśnień:

  • Mój cel: muszę przeprowadzić analizę klastrów za pomocą algorytmu dwuetapowego przez SPSS, ale moje zmienne nie są niezależne, więc pomyślałem o odrzuceniu niektórych z nich.

  • Mój zestaw danych: pracuję nad 15 parametrami skalarnymi (moimi zmiennymi) 100 000 przypadków. Niektóre zmienne są silnie skorelowane ( Pearson)>0.9

  • Moja wątpliwość: ponieważ potrzebuję tylko zmiennych niezależnych, pomyślałem o przeprowadzeniu głównej analizy składowej (przepraszam: błędnie mówiłem o analizie czynnikowej w moim pierwotnym pytaniu, moim błędzie) i wybrałem tylko zmienne o największych obciążeniach dla każdego składnika. Wiem, że proces PCA przedstawia pewne arbitralne kroki, ale dowiedziałem się, że ten wybór jest w rzeczywistości podobny do „ metody B4 ” zaproponowanej przez IT Jolliffe (1972 i 2002) w celu wybrania zmiennych i zasugerowanej również przez JR King i DA Jackson w 1999 r. .

    Pomyślałem więc, aby w ten sposób wybrać pewne podgrupy zmiennych niezależnych. Następnie użyję grup do przeprowadzenia różnych analiz skupień i porównuję wyniki.

en.
źródło
1
Jeśli znasz prawidłową odpowiedź, dlaczego w ogóle przeprowadzasz analizę?
StasK
1
Z drugiej strony, dlaczego Twoim zdaniem musisz zmniejszyć liczbę zmiennych do analizy skupień? Nie sądzę, aby żadne z nowoczesnych narzędzi analizy skupień miało jakiekolwiek ograniczenia co do liczby zmiennych wejściowych. Oczywiście, jeśli masz test na 120 przedmiotów, sprawy się z nim skomplikują.
StasK
możliwy duplikat użycia analizy głównego składnika (PCA) do wyboru funkcji
mówi ameba Przywróć Monikę
Wydaje mi się, że dodanie aspektu analizy skupień w tym Q sprawia, że ​​jest wystarczająco wyraźny, aby pozostać otwarty.
Gung - Przywróć Monikę
Wydajesz się stosować surowsze kryteria do duplikatów niż ja, @gung; być może masz rację (i głosowanie również nie idzie dobrze). Jednak w tym konkretnym przypadku OP pytał o najprostszy wybór funkcji oparty na PCA (jak wyjaśniono w jego aktualizacji), który jest opisany w wątku, który zasugerowałem. Z drugiej strony, StasK opublikował tutaj ciekawą odpowiedź, która dotyczy konkretnie grupowania ...
Amoeba mówi Przywróć Monikę

Odpowiedzi:

7

Zrobię, zgodnie z moim zwyczajem, krok wstecz i zapytam, co dokładnie próbujesz zrobić. Analiza czynnikowa służy do wyszukiwania ukrytych zmiennych. Jeśli chcesz znaleźć ukryte zmienne i zgrupować je, to to, co robisz, jest poprawne. Ale mówisz, że po prostu chcesz zmniejszyć liczbę zmiennych - sugeruje to zamiast tego analizę głównych składników.

Jednak w obu przypadkach należy zinterpretować analizę skupień nowych zmiennych, a te nowe zmienne są po prostu ważonymi sumami starych.

Ile masz zmiennych? Jak są ze sobą skorelowane? Jeśli jest ich o wiele za dużo i są one bardzo silnie skorelowane, możesz poszukać wszystkich korelacji na pewnej bardzo dużej liczbie i losowo usunąć jedną zmienną z każdej pary. Zmniejsza to liczbę zmiennych i pozostawia zmienne takimi, jakie są.

Pozwólcie, że powtórzę również @StasK o potrzebie zrobienia tego w ogóle, a @ rolando2 o użyteczności znalezienia czegoś innego niż to, co zostało odkryte wcześniej. Jak mawiał mój ulubiony profesor w szkole, „jeśli nie jesteś zaskoczony, niczego się nie nauczyłeś”.

Peter Flom - Przywróć Monikę
źródło
1
po pierwsze przykro mi: mam na myśli analizę głównych składników, a nie analizę czynników, mój błąd. Co więcej, szukałem sposobu, aby nie wybierać arbitralnie zmiennej skorelowanej, którą mam zachować. Dodaję więcej informacji o problemie powyżej. Jeszcze raz dziękuję
pl.
5

Jedną z metod przeprowadzania analizy czynnikowej i analizy skupień są modele mieszania równań strukturalnych. W tych modelach postuluje się istnienie osobnych modeli (w tym przypadku modeli czynnikowych) dla każdego klastra. Będziesz musiał mieć analizę średnią wraz z analizą kowariancji i zajmować się identyfikacją w większym stopniu niż w zwykłej analizie czynników waniliowych. Pomysł, do którego podszedł SEM, pojawia się w Jedidi i in. glin. (1997) i od strony klastrowania w klastrowaniu modelowym autorstwa Adriana Raftery'ego . Ten rodzaj analizy jest najwyraźniej dostępny w Mplus .

StasK
źródło
1
dziękuję za dane wejściowe, szczególnie za referencje, ale błędnie odwołałem się do analizy czynnikowej: tak naprawdę myślałem o głównych składnikach, aby zredukować moje zmienne do podgrupy zmiennych niezależnych. mój błąd
en.
2

Nie sądzę, że chodzi o czystość i prostotę „poprawności”, ale raczej o to, czy osiągnie to, co chcesz zrobić. Podejście, które opisujesz, zakończy się grupowaniem według określonych czynników w rozwodniony sposób, ponieważ będziesz używał tylko jednego wskaźnika do reprezentowania każdego czynnika. Każdy taki wskaźnik stanowi niedoskonały element zastępujący ukryty czynnik ukryty. To jeden problem.

Inną kwestią jest to, że analiza sam czynnik, jak ja (i wiele innych), które opowiada , jest pełen subiektywnych decyzji dotyczących sposobów radzenia sobie z brakującymi danymi, liczba czynników wyodrębnić, jak wydobyć, czy i jak się obracać, a więc na. Dlatego może nie być jasne, że czynniki, które mogłeś wyodrębnić w szybki, domyślny dla oprogramowania sposób (jak myślę sugerowałeś) są „najlepsze” pod każdym względem.

Podsumowując, być może użyłeś rozwodnionej wersji czynników, które same w sobie są dyskusyjne jako najlepsze sposoby na scharakteryzowanie motywów leżących u podstaw twoich danych. Nie spodziewałbym się, że klastry wynikające z takich zmiennych wejściowych będą najbardziej pouczające lub najbardziej wyraźne.

Z drugiej strony wydaje się interesujące, że uważasz za problem członkostwo w klastrach / profile, które nie zgadzają się z tym, co znaleźli inni badacze. Czasami niepotwierdzające ustalenia mogą być bardzo zdrowe!

rolando2
źródło
dziękuję bardzo, dodałem więcej informacji powyżej, aby sprecyzować moje wątpliwości
en.
0

W twoim przypadku może się zdarzyć, że czynniki wyodrębnione w analizie czynnikowej mają kompensujące dodatnie i ujemne obciążenia z pierwotnych zmiennych. Zmniejszyłoby to zróżnicowanie, które jest celem grupowania.

Czy potrafisz podzielić każdy wyodrębniony czynnik na 2 - jeden mający tylko ładunki dodatnie, a drugi tylko ujemne?

Zamień wyniki czynnikowe dla każdego przypadku dla każdego czynnika na wyniki pozytywne i negatywne, a następnie spróbuj skupić się na tym nowym zestawie wyników.

Proszę wpisać wiersz, jeśli to Ci odpowiada.

Bose
źródło
0

Możesz skanować zarówno pod kątem wysokich wartości, jak i pod kątem niskich wartości i pozostawić wszystkie zmienne w czynnikach. W ten sposób nie ma potrzeby ograniczania czynników. Jeśli podzielisz Współczynnik 1 (powiedzmy) w określony sposób w oparciu o znaki obciążeń, w Czynniku 2 znaki mogą być zupełnie inne. Czy zatem podzieliłbyś czynnik 2 inaczej niż czynnik 1? To wydaje się być mylące.

Raid Amin
źródło