Wiem, że istnieje algorytm grupowania k-średnich i k-mediana. Jeden, który wykorzystuje średnią jako środek skupienia, a drugi wykorzystuje medianę. Moje pytanie brzmi: kiedy / gdzie użyć którego?
clustering
k-means
Jack Twain
źródło
źródło
Odpowiedzi:
k-średnie minimalizuje wariancję wewnątrz gromady, która jest równa kwadratowym odległościom euklidesowym.
Ogólnie rzecz biorąc, robi to średnia arytmetyczna . Czyni nie zoptymalizować dystanse, ale kwadratów odchyleń od średniej.
Mediany k minimalizują odchylenia bezwzględne, które są równe odległości Manhattanu.
Zasadniczo powinna to zrobić mediana na oś . Jest to dobry estymator dla średniej, jeśli chcesz zminimalizować sumę odchyleń bezwzględnych (czyli sum_i abs (x_i-y_i)), zamiast kwadratów.
To nie jest pytanie o dokładność. To kwestia poprawności. ;-)
Oto twoje drzewo decyzyjne:
Niektóre wyjątki: o ile wiem, maksymalne podobieństwo cosinusa wiąże się z minimalizacją kwadratowej odległości euklidesowej na danych znormalizowanych przez L2. Więc jeśli twoje dane są znormalizowane L2; i normalizujesz swoje środki przy każdej iteracji, wtedy możesz ponownie użyć k-średnich.
źródło
Jeśli chcesz przeprowadzić analizę nie dotyczącą możliwego efektu wartości ekstremalnych, użyj k oznacza, ale jeśli chcesz być dokładniejszy, użyj k mediany
źródło