Co oznacza suma ss i między ss w k-średnich klastrach?

10

Jestem bardzo nowy w analizie skupień. Używam R do k-grupowania i zastanawiam się, co to za rzeczy. A co jest lepszego, jeśli ich stosunek jest mniejszy lub większy?

kanbhold
źródło

Odpowiedzi:

12

Jest to w zasadzie miara dobroci klasyfikacji, jaką znalazł k-średnich. SS oczywiście oznacza Sumę kwadratów, więc jest to zwykły rozkład dewiacji w dewiacji „Pomiędzy” i dewiacji „Wewnątrz”. Idealnie potrzebujesz grupowania, które ma właściwości wewnętrznej spójności i separacji zewnętrznej, tzn. Stosunek BSS / TSS powinien zbliżyć się do 1.

Na przykład w R:

data(iris)
km <- kmeans(iris[,1:4], 3)

daje stosunek BSS / TSS 88,4% (0,884), co wskazuje na dobre dopasowanie. Powinieneś być ostrożny, a zwykle dobrym pomysłem jest wykreślenie WSS względem liczby klastrów, ponieważ liczba ta musi być wcześniej określona.

lambda_vu
źródło