Mam bardzo podstawowe pytanie dotyczące grupowania. Po znalezieniu k klastrów wraz z ich centroidami, jak przejść do interpretacji klas punktów danych, które zgrupowałem (przypisując znaczące etykiety klas do każdego klastra). Nie mówię o walidacji znalezionych klastrów.
Czy można to zrobić, biorąc pod uwagę niewielki zestaw punktów danych, obliczyć, do którego klastra należą te oznaczone punkty i na podstawie typu i liczby punktów, które otrzymuje każdy klaster, zdecydować o etykiecie? Wydaje się to dość oczywiste, ale nie wiem, jak standardowe jest przypisywanie etykiet do klastrów w ten sposób.
Żeby było jasne, chcę wykonywać klastry bez nadzoru, które nie używają żadnych etykiet, aby najpierw znaleźć moje klastry. Następnie, po znalezieniu klastrów, chcę przypisać znaczące etykiety klas do klastrów na podstawie właściwości kilku przykładowych punktów danych.
Odpowiedzi:
Tak. To, co proponujesz, jest całkowicie standardowe i jest to sposób, w jaki standardowe oprogramowanie k-znaczy działa automatycznie. W przypadku k-średnich obliczasz odległość euklidesową między każdą obserwacją (punkt danych) a każdą średnią skupienia (centroid) i przypisujesz obserwacje do najbardziej podobnego skupienia. Następnie określa się etykietę skupienia, badając tę średnią charakterystykę obserwacji zaklasyfikowanych do skupienia w stosunku do średnich tych względem innych skupień.
źródło
Jeśli spojrzysz na nazwy w obiekcie kmeans, zauważysz, że istnieje obiekt „klastra”. Zawiera etykiety klas uporządkowane tak samo jak dane wejściowe. Oto prosty przykład, który wiąże etykiety klastrów z powrotem z danymi.
źródło
Etykiety dla klastra mogą być oparte na klasie większości próbek w klastrze. Jest to jednak prawdą tylko wtedy, gdy liczba klastrów jest równa liczbie klas.
źródło