Mam zestaw danych, chcę utworzyć klastry na tych danych na podstawie tylko jednej zmiennej (nie ma brakujących wartości). Chcę utworzyć 3 klastry na podstawie tej jednej zmiennej.
Którego algorytmu grupowania użyć, k-średnich, EM, DBSCAN itp.?
Moje główne pytanie brzmi: w jakich okolicznościach powinienem używać k-średnich zamiast EM lub EM ponad k-średnich?
clustering
Ali
źródło
źródło
Odpowiedzi:
Algorytm K-średnich i algorytm EM będą bardzo podobne dla klastrowania 1D.
W K-średnich zaczynasz od zgadywania, gdzie są średnie i przypisujesz każdy punkt do klastra najbliższą średnią, a następnie ponownie obliczasz średnie (i wariancje) na podstawie bieżących przypisań punktów, następnie aktualizujesz przypisanie punktów, a następnie aktualizujesz środki ...
W EM zaczynasz od zgadywania, gdzie są średnie, a następnie obliczasz oczekiwaną wartość przypisań (zasadniczo prawdopodobieństwo, że każdy punkt znajduje się w każdym klastrze), a następnie aktualizujesz oszacowane średnie (i wariancje) przy użyciu oczekiwanych wartości jako wagi, a następnie oblicz nowe oczekiwane wartości, a następnie oblicz nowe środki ...
Podstawowa różnica polega na tym, że przypisanie punktów do klastrów w środkach K jest wszystkim lub niczym, gdzie EM daje proporcje / prawdopodobieństwo członkostwa w grupie (jeden punkt może być postrzegany jako mający 80% prawdopodobieństwa bycia w grupie A, 18% prawdopodobieństwa bycia w grupie B i 2% prawdopodobieństwa bycia w grupie C). Jeśli między grupami występuje duża separacja, wówczas 2 metody dadzą całkiem podobne wyniki. Ale jeśli zachodzi spore nakładanie się, wówczas EM prawdopodobnie da bardziej znaczące wyniki (nawet więcej, jeśli interesująca jest wariancja / odchylenie standardowe). Ale jeśli zależy ci tylko na przypisaniu członkostwa do grupy bez dbania o parametry, oznacza to, że K-znaczy jest prawdopodobnie prostsze.
Dlaczego nie zrobić obu i zobaczyć, jak różne są odpowiedzi? jeśli są podobne, wybierz prostszy, jeśli są różne, zdecyduj się na porównanie grupowania z danymi i wiedzą zewnętrzną.
źródło
EM jest lepszy niż k-średnie pod względem wyników.
Środki K mają jednak szybszy czas działania.
Dadzą podobne wyniki, jeśli macierze odchylenia standardowego / kowariancji będą w przybliżeniu równe. Jeśli podejrzewasz, że to prawda, użyj k-średnich.
DBSCAN jest używany, gdy dane nie są gaussowskie. Jeśli używasz danych 1-wymiarowych, nie ma to na ogół zastosowania, ponieważ przybliżenie gaussowskie jest zwykle ważne w 1 wymiarze.
źródło
Innym prostym sposobem jest w zasadzie użycie sortowania tablicy 1D: tzn. Iteracja po każdym punkcie i uzyskanie wartości, które znajdują się w minimalnej odległości zarówno w kierunku dodatnim, jak i ujemnym. Na przykład:
wyda:
Które wskazują, że przedmioty znajdujące się w pobliżu określonego punktu znajdują się zasadniczo w jego grupie. Jedyną rzeczą do rozważenia w tej technice jest zmienna k, która jest stałym rozmiarem klastra :-).
źródło
Jeśli jest tylko jedna zmienna, nie ma potrzeby grupowania. Możesz łatwo grupować swoje obserwacje na podstawie rozkładu zmiennej.
A może brakuje mi tutaj kilku punktów?
źródło