Używam R, aby wykonać grupowanie K-oznacza. Używam 14 zmiennych do uruchomienia K-średnich
- Jaki jest ładny sposób na wykreślenie wyników K-średnich?
- Czy są jakieś istniejące wdrożenia?
- Czy posiadanie 14 zmiennych komplikuje wykreślanie wyników?
Znalazłem coś o nazwie GGcluster, które wygląda fajnie, ale wciąż jest w fazie rozwoju. Przeczytałem też coś o mapowaniu sammon, ale nie zrozumiałem tego zbyt dobrze. Czy to byłaby dobra opcja?
Odpowiedzi:
W tym celu wykorzystałbym wykres sylwetki, ponieważ jest mało prawdopodobne, aby uzyskać wiele przydatnych informacji z wykresów par, gdy liczba wymiarów wynosi 14.
To podejście jest wysoko cytowane i dobrze znane ( wyjaśnienie znajduje się tutaj ).
Rousseeuw, PJ (1987) Silhouettes: Graficzna pomoc w interpretacji i walidacji analizy skupień . J. Comput. Appl. Matematyka , 20 , 53–65.
źródło
Oto przykład, który może ci pomóc:
Na podstawie tego ostatniego wykresu możesz zdecydować, które ze zmiennych początkowych chcesz wykreślić. Może 14 zmiennych jest ogromnych, więc możesz wypróbować analizę głównego składnika (PCA) przed, a następnie użyć pierwszych dwóch lub trzech składników z PCA do przeprowadzenia analizy skupień.
źródło
pairs
funkcji byłoby prostsze .Najprostszy znany mi sposób to:
W ten sposób możesz narysować punkty każdej gromady, używając innego koloru i ich centroidów.
źródło