Czy istnieje sposób na określenie, które cechy / zmienne zestawu danych są najważniejsze / dominujące w ramach rozwiązania k-średnich klastrów?
machine-learning
clustering
k-means
importance
użytkownik1624577
źródło
źródło
Odpowiedzi:
Jeden ze sposobów oceny przydatności każdej cechy (= zmienna = wymiar) z książki Burns, Robert P. i Richard Burns. Metody badań biznesowych i statystyki za pomocą SPSS. Sage, 2008. ( lustro ), użyteczność jest definiowana przez zdolność dyskryminacyjną cech do rozróżniania klastrów.
Innym sposobem byłoby usunięcie określonej funkcji i sprawdzenie, jak wpłynie to na wewnętrzne wskaźniki jakości . W przeciwieństwie do pierwszego rozwiązania konieczne będzie ponowne wykonanie klastrowania dla każdej funkcji (lub zestawu funkcji), które chcesz przeanalizować.
FYI:
źródło
Mogę wymyślić dwie inne możliwości, które koncentrują się bardziej na tym, które zmienne są ważne dla których klastrów.
Klasyfikacja wielu klas. Rozważmy obiekty należące do członków klastra x tej samej klasy (np. Klasa 1) oraz obiekty należące do innych członków klastrów drugiej klasy (np. Klasa 2). Wytrenuj klasyfikatora, aby przewidywał członkostwo w klasie (np. Klasa 1 vs. klasa 2). Współczynniki zmienne klasyfikatora mogą służyć do oszacowania znaczenia każdej zmiennej w grupowaniu obiektów w klastrze x . Powtórz to podejście dla wszystkich innych klastrów.
Podobieństwo zmiennych wewnątrz klastra. Dla każdej zmiennej oblicz średnie podobieństwo każdego obiektu do jego środka ciężkości. Zmienna o wysokim podobieństwie między środkiem ciężkości a jej obiektami jest prawdopodobnie ważniejsza dla procesu grupowania niż zmienna o niskim podobieństwie. Oczywiście wielkość podobieństwa jest względna, ale teraz zmienne mogą być uszeregowane według stopnia, w jakim pomagają grupować obiekty w każdej grupie.
źródło
Oto bardzo prosta metoda. Należy zauważyć, że odległość euklidesowa między dwoma centrami skupień jest sumą kwadratowej różnicy między poszczególnymi elementami. Następnie możemy po prostu użyć kwadratowej różnicy jako wagi dla każdej funkcji.
źródło