Miara jakości grupowania

17

Mam algorytm grupowania (nie k-średnich) z parametrem wejściowym (liczba klastrów). Po wykonaniu grupowanie Chciałbym zaczerpnąć ilościową miarą jakości tego grupowania. Algorytm klastrów ma jedną istotną właściwość. Dla , jeśli karmię punktów danych bez istotnej różnicy między nimi do tego algorytmu w wyniku otrzymam jeden klaster zawierający punktów danych i jeden klaster z punktu danych. Oczywiście nie jest to, co chcę. Chcę więc obliczyć ten miernik jakości, aby oszacować racjonalność tego grupowania. Idealnie będę mógł porównać to środki do innego . Uruchomię więc grupowanie w zakresiekk=2NN11kki wybrać jedną z najlepszych jakości. W jaki sposób obliczyć takiej miary jakości?

AKTUALIZACJA:

Oto przykład, gdy jest złym klastrów. Powiedzmy, że są 3 punkty na płaszczyźnie tworzącej trójkąt równoboczny. Rozdzielenie tych punktów na 2 klastrów jest oczywiście gorzej niż dzielenie ich na 1 lub 3 klastrów.(N1,1)

Max
źródło
Dla mnie nie jest to oczywiste. Widzę klastrów, że w rzeczywistości mają różne rozmiary cały czas ...
anony-Mousse -Reinstate Monica

Odpowiedzi:

12

Wybór metryczny raczej zależy od tego, co uważasz za cel klasteringu być. Osobiście uważam, że grupowanie powinno polegać na identyfikacji różnych grup obserwacji, z których każda została wygenerowana przez inny proces generowania danych. Więc chciałbym przetestować Jakość klastrów poprzez generowanie danych ze znanych danych procesów wytwórczych, a następnie obliczyć jak często wzory są błędnie zaklasyfikowana przez klastry. Oczywiście to zaangażowane przygotowywania assumtions o dystrybucji wzorców z każdego procesu wytwarzania, ale można użyć zestawów danych przeznaczonych do klasyfikacji nadzorowanej.

Inni postrzegają jako próby grupowania punktów wraz z grupą podobnych wartości atrybutów, w której środki przypadku takim jak SSE etc są stosowane. Jednak uważam tę definicję klasteringu raczej niezadowalający, gdyż tylko mówi coś o danej próbki danych, zamiast czegoś uogólniać o rozkładach bazowych. Jak radzić sobie z zachodzącymi na siebie metody klastrów jest to szczególny problem z tym poglądem (dla „procesu generującego dane” widok powoduje żadnego realnego problemu, po prostu prawdopodobieństwo członkostwa w klastrze).

Dikran Torbacz
źródło
3
+1 do wyróżniania rozróżnienie pomiędzy oparciu o model klastrów w porównaniu z czysto od odległości nienadzorowanej klastrów.
CHL
1
Myślę, że zarówno cel mają swoje zastosowanie w faire różnymi ustawieniami. Istnieje wiele kontekst zostały faktycznie zrobić tylko spojrzeć na dane pod ręką (np. Poboczna definicja). Ponadto, zanim będzie mógł dostać się do różnych procesów generujących dane, trzeba eksploracji co najlepiej zrobić z drugiej definicji ...
Etienne niskiego Decarie
Zgadzam Etienne, że obie metody mają swoje zastosowanie. Jednak chciałbym również powiedzieć, że to, czy obserwacja jest poboczna lub nie niejawnie sprawia pewne założenia dotyczące procesu generowania danych, tak druga forma klastrowania jest chyba tylko za pierwszy krok w zrozumieniu danych, gdy starasz się orientować się prawidłowo.
Dikran Torbacz
4

Od klastrów jest bez nadzoru, to trudno wiedzieć a priori, co jest najlepszym klastrów. Jest to temat badania. Gary King, znany ilościowy socjolog, ma zbliżający się artykuł na ten temat.


źródło
+! Tak; @Max Co według ciebie byłoby to „oczywiste” grupowanie?
@mbq: Właściwie nie wiem, co byłoby dobrym klastrów dla tego produktu. Poprzez „oczywiste” mówię, że (N-1, 1) zdecydowanie nie jest dobrym klastrowaniem w tym zakresie. Lepszym klastrowaniem byłby tylko jeden klaster, więc brak klastrowania w ogóle. A może niektóre klastry z liczbą klastrów więcej niż 2.
Max
Połączyć wydaje się być uszkodzony.
Etienne niskiego Decarie
Oto zaktualizowany link do artykułu: gking.harvard.edu/files/abs/discov-abs.shtml
Dolan Antenucci
4

Tutaj masz kilka środków, ale jest o wiele więcej:

SSE: suma błędu kwadratowego z elementów każdego klastra.

Odległość między klastrami: suma kwadratowych odległości między każdym środkiem ciężkości klastra.

Intra odległość klastra dla każdego klastra: suma kwadratu odległości od pozycji każdego klastra do jej ciężkości.

Maksymalny Promień: największa odległość od instancji do jego ciężkości klastra.

Średni promień: suma największej odległości od instancji do swojej gromady ciężkości podzielona przez liczbę klastrów.

Mariana soffer
źródło
Próbowałem przy użyciu intra w odległości między klastrami, ale nie mógł myśleć o czymś przydatne dla klastra z jednego punktu. Również nie mam punkt środkowy. Mam tylko odległości między punktami.
Max.
Im większa jest odległość między klaster, tym lepiej, można mierzyć poprzez obliczenie odległości między centrum klastrów.
Mariana soffer
4

Został uruchomiony w dziedzinie klastrów Validation. Mój uczeń zrobił walidacji techniki wykorzystujące opisane w:

A. Banerjee i RN Dave. Sprawdzanie poprawności klastrów za pomocą statystyki Hopkinsa. 2004 IEEE International Conference on Fuzzy Systems IEEE Cat No04CH37542, 1: p. 149–153, 2004.

Opiera się na zasadzie, że jeśli klaster jest ważny, punkty danych są równomiernie rozmieszczone w klastrze.

Ale przed tym należy określić, czy dane mają żadnego tzw klastrowania tendencja IE czy warto klastrów i optymalna liczba klastrów:

S. Saitta, B. Raphael i IFC Smith. Kompleksowy indeks ważności dla grupowania. Intel. Data Anal., 12 (6): s. 529–548, 2008.

danas.zuokas
źródło
3

Jak zauważyli inni, istnieje wiele miar skupiania „jakości”; większość programów minimalizuje SSE. Żaden pojedynczy numer może powiedzieć wiele o hałas w danych lub hałas w metodzie lub mieszkania minima - niskie punkty Saskatchewan.

Najpierw spróbuj wizualizować, wyczuć daną grupę, zanim zredukujesz ją do „41”. Następnie wykonaj 3 przebiegi: czy otrzymujesz SSE 41, 39, 43 lub 41, 28, 107? Jakie są rozmiary i promienie klastra?

(Dodane :) Spójrz na działkach sylwetka i partytur sylwetka, np w książce Izenman, Techniki Nowoczesne wieloczynnikowa Statystyczne (2008, 731p, ISBN 0387781889).

denis
źródło
3

Sylwetka może być wykorzystane do oceny wyników klastrów. Odbywa się to poprzez porównanie średniej odległości w klastrze ze średnią odległością do punktów w najbliższym klastrze.

wrz
źródło
2

Sposób taki jak używany w nienadzorowanej losowej lesie mogą być wykorzystane.

Algorytmy Random Forest traktują klasyfikację bez nadzoru jako problem dwóch klas, w którym z pierwszego zestawu danych tworzony jest zupełnie inny sztuczny i losowy zestaw danych poprzez usunięcie struktury zależności w danych (randomizacja).

Można następnie stworzyć taki sztuczny i przypadkowy zbiór danych, stosuje się model klastrów i porównać system metryczny z wyboru (np. SSE) w swoich prawdziwych danych i swoich danych losowych.

Mieszanie w randomizacji, permutacji, ładującego, worki i / lub jacknifing może dać środek podobny do wartości P mierząc ile razy dany model klastrów daje mniejszą wartość dla was prawdziwych danych niż swoich danych losowych Korzystanie z metryką wybór (np. SSE lub przewidywanie błędów po wyjęciu z torby).

Twoja metryka jest więc różnica (prawdopodobieństwo, różnica wielkości, ...) w dowolny parametr wyboru pomiędzy prawdziwymi i losowych danych.

Iteracja tego w przypadku wielu modeli umożliwi rozróżnienie między modelami.

Można to zaimplementować w R.

randomforest jest dostępny w R

Etienne niskiego Decarie
źródło
+1, podoba mi się ten pomysł; jednak randomizacja / permutacja danych spowoduje tylko zerwanie relacji między zmiennymi b / t, nie zadziałałoby to, gdyby istniało grupowanie z jedną zmienną.
Gung - Przywróć Monikę
1

Jeśli algorytm grupowania nie jest deterministyczny, spróbuj zmierzyć „stabilność” skupień - dowiedz się, jak często każda z dwóch obserwacji należy do tego samego skupienia. To ogólnie interesująca metoda, przydatna do wyboru k w algorytmie kmeans.

Qbik
źródło