Mam algorytm grupowania (nie k-średnich) z parametrem wejściowym (liczba klastrów). Po wykonaniu grupowanie Chciałbym zaczerpnąć ilościową miarą jakości tego grupowania. Algorytm klastrów ma jedną istotną właściwość. Dla , jeśli karmię punktów danych bez istotnej różnicy między nimi do tego algorytmu w wyniku otrzymam jeden klaster zawierający punktów danych i jeden klaster z punktu danych. Oczywiście nie jest to, co chcę. Chcę więc obliczyć ten miernik jakości, aby oszacować racjonalność tego grupowania. Idealnie będę mógł porównać to środki do innego . Uruchomię więc grupowanie w zakresiei wybrać jedną z najlepszych jakości. W jaki sposób obliczyć takiej miary jakości?
AKTUALIZACJA:
Oto przykład, gdy jest złym klastrów. Powiedzmy, że są 3 punkty na płaszczyźnie tworzącej trójkąt równoboczny. Rozdzielenie tych punktów na 2 klastrów jest oczywiście gorzej niż dzielenie ich na 1 lub 3 klastrów.
źródło
Odpowiedzi:
Wybór metryczny raczej zależy od tego, co uważasz za cel klasteringu być. Osobiście uważam, że grupowanie powinno polegać na identyfikacji różnych grup obserwacji, z których każda została wygenerowana przez inny proces generowania danych. Więc chciałbym przetestować Jakość klastrów poprzez generowanie danych ze znanych danych procesów wytwórczych, a następnie obliczyć jak często wzory są błędnie zaklasyfikowana przez klastry. Oczywiście to zaangażowane przygotowywania assumtions o dystrybucji wzorców z każdego procesu wytwarzania, ale można użyć zestawów danych przeznaczonych do klasyfikacji nadzorowanej.
Inni postrzegają jako próby grupowania punktów wraz z grupą podobnych wartości atrybutów, w której środki przypadku takim jak SSE etc są stosowane. Jednak uważam tę definicję klasteringu raczej niezadowalający, gdyż tylko mówi coś o danej próbki danych, zamiast czegoś uogólniać o rozkładach bazowych. Jak radzić sobie z zachodzącymi na siebie metody klastrów jest to szczególny problem z tym poglądem (dla „procesu generującego dane” widok powoduje żadnego realnego problemu, po prostu prawdopodobieństwo członkostwa w klastrze).
źródło
Od klastrów jest bez nadzoru, to trudno wiedzieć a priori, co jest najlepszym klastrów. Jest to temat badania. Gary King, znany ilościowy socjolog, ma zbliżający się artykuł na ten temat.
źródło
Tutaj masz kilka środków, ale jest o wiele więcej:
SSE: suma błędu kwadratowego z elementów każdego klastra.
Odległość między klastrami: suma kwadratowych odległości między każdym środkiem ciężkości klastra.
Intra odległość klastra dla każdego klastra: suma kwadratu odległości od pozycji każdego klastra do jej ciężkości.
Maksymalny Promień: największa odległość od instancji do jego ciężkości klastra.
Średni promień: suma największej odległości od instancji do swojej gromady ciężkości podzielona przez liczbę klastrów.
źródło
Został uruchomiony w dziedzinie klastrów Validation. Mój uczeń zrobił walidacji techniki wykorzystujące opisane w:
A. Banerjee i RN Dave. Sprawdzanie poprawności klastrów za pomocą statystyki Hopkinsa. 2004 IEEE International Conference on Fuzzy Systems IEEE Cat No04CH37542, 1: p. 149–153, 2004.
Opiera się na zasadzie, że jeśli klaster jest ważny, punkty danych są równomiernie rozmieszczone w klastrze.
Ale przed tym należy określić, czy dane mają żadnego tzw klastrowania tendencja IE czy warto klastrów i optymalna liczba klastrów:
S. Saitta, B. Raphael i IFC Smith. Kompleksowy indeks ważności dla grupowania. Intel. Data Anal., 12 (6): s. 529–548, 2008.
źródło
Jak zauważyli inni, istnieje wiele miar skupiania „jakości”; większość programów minimalizuje SSE. Żaden pojedynczy numer może powiedzieć wiele o hałas w danych lub hałas w metodzie lub mieszkania minima - niskie punkty Saskatchewan.
Najpierw spróbuj wizualizować, wyczuć daną grupę, zanim zredukujesz ją do „41”. Następnie wykonaj 3 przebiegi: czy otrzymujesz SSE 41, 39, 43 lub 41, 28, 107? Jakie są rozmiary i promienie klastra?
(Dodane :) Spójrz na działkach sylwetka i partytur sylwetka, np w książce Izenman, Techniki Nowoczesne wieloczynnikowa Statystyczne (2008, 731p, ISBN 0387781889).
źródło
Sylwetka może być wykorzystane do oceny wyników klastrów. Odbywa się to poprzez porównanie średniej odległości w klastrze ze średnią odległością do punktów w najbliższym klastrze.
źródło
Sposób taki jak używany w nienadzorowanej losowej lesie mogą być wykorzystane.
Algorytmy Random Forest traktują klasyfikację bez nadzoru jako problem dwóch klas, w którym z pierwszego zestawu danych tworzony jest zupełnie inny sztuczny i losowy zestaw danych poprzez usunięcie struktury zależności w danych (randomizacja).
Można następnie stworzyć taki sztuczny i przypadkowy zbiór danych, stosuje się model klastrów i porównać system metryczny z wyboru (np. SSE) w swoich prawdziwych danych i swoich danych losowych.
Mieszanie w randomizacji, permutacji, ładującego, worki i / lub jacknifing może dać środek podobny do wartości P mierząc ile razy dany model klastrów daje mniejszą wartość dla was prawdziwych danych niż swoich danych losowych Korzystanie z metryką wybór (np. SSE lub przewidywanie błędów po wyjęciu z torby).
Twoja metryka jest więc różnica (prawdopodobieństwo, różnica wielkości, ...) w dowolny parametr wyboru pomiędzy prawdziwymi i losowych danych.
Iteracja tego w przypadku wielu modeli umożliwi rozróżnienie między modelami.
Można to zaimplementować w R.
randomforest jest dostępny w R
źródło
Jeśli algorytm grupowania nie jest deterministyczny, spróbuj zmierzyć „stabilność” skupień - dowiedz się, jak często każda z dwóch obserwacji należy do tego samego skupienia. To ogólnie interesująca metoda, przydatna do wyboru k w algorytmie kmeans.
źródło