W jaki sposób PCA pomógłby w analizie skupień metodą k-średnich?

32

Kontekst : Chcę podzielić obszary mieszkalne miasta na grupy na podstawie ich cech społeczno-ekonomicznych, w tym gęstości zabudowy, gęstości zaludnienia, powierzchni zieleni, ceny mieszkań, liczby szkół / ośrodków zdrowia / ośrodków opieki dziennej itp. Chcę zrozumieć, na ile różnych grup można podzielić dzielnice mieszkaniowe i jakie są ich unikalne cechy. Informacje te mogą ułatwić planowanie miasta.

Na podstawie kilku przykładów (por. Ten post na blogu: PCA i K-oznacza Clustering of Delta Aircraft ), wymyśliłem sposób na przeprowadzenie analizy:

  1. Najpierw wykonaj analizę PCA.

  2. Określ liczbę unikalnych grup (klastrów) na podstawie wyników PCA (np. Stosując metodę „łokcia” lub alternatywnie liczbę składników, która wyjaśnia 80 do 90% całkowitej wariancji).

  3. Po określeniu liczby klastrów zastosuj klastrowanie k-średnich, aby dokonać klasyfikacji.

Moje pytania: wydawało się, że liczba komponentów PCA jest związana z analizą klastrów. Więc to prawda, jeśli powiedzmy, że 5 komponentów PCA wyjaśniło ponad 90% zmienności wszystkich funkcji, wówczas zastosowalibyśmy k-średnich i uzyskalibyśmy 5 klastrów. Czy więc 5 grup dokładnie odpowiada 5 składnikom w analizie PCA?

Innymi słowy, wydaje mi się, że moje pytanie brzmi: jaki jest związek między analizą PCA a klastrowaniem k-średnich?

Aktualizacje: Dzięki wkładom Emre'a, Xeona i Kirilla. Więc obecne odpowiedzi:

  1. Wykonanie PCA przed analizą klastrowania jest również przydatne do redukcji wymiarowości jako ekstraktora cech i wizualizacji / ujawniania klastrów.

  2. Wykonanie PCA po klastrowaniu może zweryfikować algorytm klastrowania (odniesienie: Analiza głównego składnika jądra ).

  3. Czasami stosuje się PCA w celu zmniejszenia wymiarów zbioru danych przed grupowaniem. Jednak Yeung i Ruzzo (2000) wykazali, że grupowanie za pomocą komputera zamiast oryginalnych zmiennych niekoniecznie poprawia jakość klastra. W szczególności pierwsze kilka komputerów PC (które zawierają większość zmian danych) niekoniecznie przechwytuje większość struktury klastra.

    • Yeung, Ka Yee i Walter L. Ruzzo. Badanie empiryczne dotyczące analizy głównych składników dla grupowania danych dotyczących ekspresji genów. Raport techniczny, Wydział Informatyki i Inżynierii, University of Washington, 2000. ( pdf )
  4. Wydawało się, że PCA jest konieczne przed dwuetapową analizą grupowania . Na podstawie Ibes (2015), w którym przeprowadzono analizę skupień z wykorzystaniem czynników określonych w PCA.

enaJ
źródło
1
Możesz użyć PCA do redukcji wymiarowości jako ekstraktora cech i do wizualizacji klastrów.
Emre
3
Zacznij prosto: uruchom klasyfikator bezpośrednio na posiadanych danych i zanotuj wydajność. Jeśli nie jesteś zadowolony z wydajności, spróbuj PCA (wybierz liczbę składników na „kolanie” posortowanego wykresu wartości własnych) i uruchom k-średnich. Jeśli widzisz ładne klastry, istnieje duża szansa, że ​​klasyfikator PCA + wykona dobrą robotę.
Vladislavs Dovgalecs
1
Możesz także wykonać PCA po klastrowaniu, aby sprawdzić algorytm klastrowania; kod koloru każdego punktu według etykiety klastra. Polecam także zajrzeć do jądra PCA .
Emre
Istnieją metody, które jednocześnie przeprowadzają redukcję wymiarów i grupowanie. Metody te poszukują optymalnie dobranej reprezentacji niskiego wymiaru, aby ułatwić identyfikację klastrów. Na przykład zobacz klastrowany pakiet w R i powiązane odniesienia.
Nat.

Odpowiedzi:

16

PCA nie jest metodą grupowania. Ale czasami pomaga odkryć klastry.

010

1102101010

0

Cyryl
źródło
Dziękuję za twoje uwagi. Czy możesz wyjaśnić, czym są 10-wymiarowe rozkłady normalne ze średnią 0? Czy masz na myśli dziesięć zmiennych funkcji wejściowych i każda z nich ma rozkład normalny?
enJ
Przepraszam, mówię o zmiennej losowej, która podąża za wielowymiarowym rozkładem normalnym ze średnią, że będzie to 10-wymiarowy wektor i macierz kowariancji, która jest macierzą symetryczną 10x10.
Kirill,