Badałem k-średnich i oto, co otrzymałem: k-średnich jest jednym z najprostszych algorytmów, który wykorzystuje metodę uczenia bez nadzoru w celu rozwiązania znanych problemów związanych z klastrowaniem. Działa naprawdę dobrze z dużymi zestawami danych.
Istnieją jednak także wady K-Means:
- Silna wrażliwość na wartości odstające i hałas
- Nie działa dobrze w przypadku nieokrągłego kształtu skupienia - liczba skupień i początkowa wartość początkowa muszą zostać wcześniej określone
- Niska zdolność do przekroczenia lokalnego optimum.
Czy jest coś wielkiego w k-średnich, ponieważ wydaje się, że wady wykraczają poza dobre strony k-średnich.
Proszę, naucz mnie.
clustering
data-mining
algorithms
k-means
Złota czaszka z wzorem
źródło
źródło
Odpowiedzi:
Inne algorytmy grupowania z lepszymi funkcjami są zwykle droższe. W tym przypadku k-średnich staje się doskonałym rozwiązaniem dla wstępnego klastrowania, redukując przestrzeń do rozłącznych mniejszych podprzestrzeni, w których można zastosować inne algorytmy klastrowania.
źródło
Środki K są najprostsze. Aby wdrożyć i uruchomić. Wszystko, co musisz zrobić, to wybrać „k” i uruchomić go kilka razy.
Najbardziej sprytne algorytmy (szczególnie te dobre) są znacznie trudniejsze do wydajnego wdrożenia (zobaczysz współczynniki 100x w różnicach czasu wykonywania) i mają znacznie więcej parametrów do ustawienia.
Ponadto większość ludzi nie potrzebuje klastrów jakości . W rzeczywistości są zadowoleni ze wszystkiego, co zdalnie dla nich działa. Poza tym tak naprawdę nie wiedzą, co robić, gdy mają bardziej złożone klastry. K-oznacza, który modeluje klastry za pomocą najprostszego jak dotąd modelu - centroidu - jest dokładnie tym, czego potrzebują: ogromną redukcją danych do centroidów .
źródło
K-znaczy jest jak algorytm wymiany sortowania. Łatwy do zrozumienia, pomaga przejść do tematu, ale nigdy nie powinien być używany do niczego prawdziwego, nigdy. W przypadku Exchange Sort, nawet Bubble Sort jest lepszy, ponieważ może zatrzymać się wcześniej, jeśli tablica jest częściowo posortowana. W przypadku K-średnich algorytm EM jest tym samym algorytmem, ale zakłada rozkłady Gaussa dla klastrów zamiast założenia równomiernego rozkładu K-średnich. Średnie K to skrajny przypadek EM, gdy wszystkie klastry mają ukośne macierze kowariancji. Struktura Gaussa oznacza, że klastry kurczą się w bardzo przyjemny sposób. Pozwala to obejść poważne zastrzeżenia, które prawidłowo zgłosisz w pytaniu. A tak naprawdę EM nie jest dużo droższy niż środki K. (Mogę zaimplementować oba w arkuszu kalkulacyjnym Excel.) Ale w przypadku poważnych aplikacji klastrowych,
źródło