k-średnie vs k-mediana?

14

Wiem, że istnieje algorytm grupowania k-średnich i k-mediana. Jeden, który wykorzystuje średnią jako środek skupienia, a drugi wykorzystuje medianę. Moje pytanie brzmi: kiedy / gdzie użyć którego?

Jack Twain
źródło
Będziesz musiał zdefiniować mediany (i być może je obliczyć), jeśli masz więcej niż jeden wymiar; jeśli po prostu weźmiesz medianę w każdej wartości, tracisz właściwości obrotowe. Kolejną możliwością są k- medoidy
Henry

Odpowiedzi:

14

k-średnie minimalizuje wariancję wewnątrz gromady, która jest równa kwadratowym odległościom euklidesowym.

Ogólnie rzecz biorąc, robi to średnia arytmetyczna . Czyni nie zoptymalizować dystanse, ale kwadratów odchyleń od średniej.

Mediany k minimalizują odchylenia bezwzględne, które są równe odległości Manhattanu.

Zasadniczo powinna to zrobić mediana na oś . Jest to dobry estymator dla średniej, jeśli chcesz zminimalizować sumę odchyleń bezwzględnych (czyli sum_i abs (x_i-y_i)), zamiast kwadratów.

To nie jest pytanie o dokładność. To kwestia poprawności. ;-)

Oto twoje drzewo decyzyjne:

  • Jeśli twoja odległość jest kwadratowa, odległość euklidesowa , użyj k-średnich
  • Jeśli Twoja odległość to metryczna taksówka , użyj median K
  • Jeśli masz inny dystans , użyj k-medoidów

Niektóre wyjątki: o ile wiem, maksymalne podobieństwo cosinusa wiąże się z minimalizacją kwadratowej odległości euklidesowej na danych znormalizowanych przez L2. Więc jeśli twoje dane są znormalizowane L2; i normalizujesz swoje środki przy każdej iteracji, wtedy możesz ponownie użyć k-średnich.

Ma ZAKOŃCZENIE - Anony-Mus
źródło
Nie zgadzam się ze stwierdzeniem, że mediana minimalizuje odległość na Manhattanie, ponieważ nie ma unikalnej uzgodnionej koncepcji mediany dla danych wielowymiarowych. To nie jest fałsz, ale uważam to za mylące stwierdzenie w kontekście wielowymiarowym. Istnieje wiele wielowymiarowych uogólnień median, z których wiele nie ma związku z minimalizowaniem odległości na Manhattanie.
Tim Seguine,
1
Zmieniam to na medianę na oś. Mam nadzieję, że jesteś teraz szczęśliwszy.
Ma ZAKOŃCZENIE - Anony-Mousse,
2

Jeśli chcesz przeprowadzić analizę nie dotyczącą możliwego efektu wartości ekstremalnych, użyj k oznacza, ale jeśli chcesz być dokładniejszy, użyj k mediany

Raf
źródło
5
Czy potrafisz w jakikolwiek sposób poprzeć i / lub wyjaśnić te twierdzenia?
jona
Tak, możesz opracować więcej? z przykładami?
Jack Twain
2
Myślę, że dzieje się tak, ponieważ „Mediana” może tolerować wartości odstające, ale „Średni” jest pod ich całkowitym wpływem. Na przykład: jeśli mamy punkty danych {1,2,3,5,78}, oczywiste jest, że 78 jest odstające. Mediana tych danych wynosi 3, a średnia wynosi 17,8. Tak więc mediana jest najlepszym sposobem na podsumowanie tych danych.
Fadwa