Studiowałem algorytmy dla grupowania danych (uczenie bez nadzoru): EM i k-średnich. Cały czas czytam:
k-średnich jest wariantem EM, przy założeniu, że klastry są kuliste.
Czy ktoś może wyjaśnić powyższe zdanie? Nie rozumiem, co oznaczają sfery i jak kmeany i EM są powiązane, ponieważ jeden wykonuje przyporządkowanie probabilistyczne, a drugi w sposób deterministyczny.
Ponadto, w jakiej sytuacji lepiej jest używać klastrowania k-średnich? lub użyć klastrowania EM?
Odpowiedzi:
K oznacza
EM
źródło
Nie ma „algorytmu k-średnich”. Istnieje algorytm MacQueensa dla k-średnich, algorytm Lloyda / Forgy'ego dla k-średnich, metoda Hartigan-Wong, ...
Nie ma też „algorytmu” EM. Jest to ogólny schemat wielokrotnego przewidywania prawdopodobieństw, a następnie maksymalizacji modelu. Najpopularniejszy wariant EM jest również znany jako „Modelowanie mieszanki Gaussa” (GMM), gdzie modelem są wielowymiarowe rozkłady Gaussa.
Można rozważyć algorytm Lloyds składa się z dwóch kroków:
... iteracja tych dwóch kroków, tak jak zrobiła to Lloyd, sprawia, że jest to efektywny przykład ogólnego schematu EM. Różni się od GMM, że:
źródło
Oto przykład, gdybym robił to w mplusie, co może być pomocne i uzupełnić bardziej wyczerpujące odpowiedzi:
Powiedzmy, że mam 3 ciągłe zmienne i chcę na ich podstawie zidentyfikować klastry. Określiłbym model mieszany (bardziej konkretnie w tym przypadku model profilu utajonego), zakładając niezależność warunkową (obserwowane zmienne są niezależne, biorąc pod uwagę członkostwo w klastrze) jako:
Uruchomiłbym ten model wiele razy, za każdym razem określając inną liczbę klastrów, i wybrałem rozwiązanie, które najbardziej mi się podoba (sam w sobie jest to rozległy temat).
Aby następnie uruchomić k-średnich, określiłbym następujący model:
Przynależność do klasy opiera się zatem na odległości od średnich obserwowanych zmiennych. Jak stwierdzono w innych odpowiedziach, wariancje nie mają z tym nic wspólnego.
Zaletą robienia tego w mplus jest to, że są to modele zagnieżdżone, dzięki czemu można bezpośrednio przetestować, czy ograniczenia powodują gorsze dopasowanie, czy nie, oprócz możliwości porównania niezgodności w klasyfikacji między dwiema metodami. Oba te modele, nawiasem mówiąc, można oszacować za pomocą algorytmu EM, więc różnica dotyczy naprawdę więcej modelu.
Jeśli myślisz w przestrzeni 3-D, to 3 oznacza punkt ... a wariancje trzy osie elipsoidy biegną przez ten punkt. Jeśli wszystkie trzy wariancje są takie same, otrzymasz kulę.
źródło