Czym różni się znalezienie środka ciężkości od znalezienia średniej?
26
Podczas klastrowania hierarchicznego można użyć wielu metryk do pomiaru odległości między klastrami. Dwie takie miary sugerują obliczenie centroidów i średnich punktów danych w klastrach.
Jaka jest różnica między średnią a środkiem ciężkości? Czy to nie ten sam punkt w gromadzie?
O ile mi wiadomo, „środek” klastra i centroid pojedynczego klastra to to samo, chociaż termin „centroid” może być nieco bardziej precyzyjny niż „średni” w przypadku danych wielowymiarowych.
Aby znaleźć środek ciężkości, oblicza się (arytmetyczną) średnią pozycji punktów osobno dla każdego wymiaru. Na przykład, jeśli masz punkty w:
(-1, 10, 3),
(0, 5, 2) i
(1, 20, 10),
wtedy środek ciężkości byłby zlokalizowany w ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), co upraszcza (0, 11 2/3, 5). (Uwaga: Centroid nie musi być - i rzadko jest --- jednym z oryginalnych punktów danych)
Środek ciężkości jest czasem nazywany również środkiem masy lub centrum środka ciężkości, w oparciu o jego fizyczną interpretację (jest to środek masy obiektu zdefiniowany przez punkty). Podobnie jak środek, położenie środka ciężkości minimalizuje kwadratową odległość od innych punktów.
Pokrewną ideą jest medoid , czyli punkt danych, który jest „najmniej odmienny” od wszystkich innych punktów danych. W przeciwieństwie do środka ciężkości, medoid musi być jednym z pierwotnych punktów. Może Cię również zainteresować mediana geometryczna, która jest podobna do mediany, ale dla danych wielowymiarowych. Oba różnią się od środka ciężkości.
W jakich warunkach centroid i medoid są identyczne? A także, dlaczego centroid jest dobrym reprezentantem zbioru punktów?
raikumardipak
@dkr, możesz zadać to pytanie jako nowe pytanie, aby uzyskać więcej (i bardziej szczegółowych) odpowiedzi. To powiedziawszy, różnica sprowadza się do dwóch rzeczy: 1) rzeczy do zminimalizowania (odległość kwadratowa / norma L2 dla środka ciężkości, odległość bezwzględna / norma L1 dla środka) i 2) Czy wyjście może być dowolnym punktem (centroid) lub musi znajdować się w zestawie danych (mediod). Możesz sobie wyobrazić przypadki, w których będą takie same, ale ogólnie nie będą. Środek ciężkości jest „dobry” z tych samych powodów, dla których średnia jest (najmniejsza suma do kwadratu odległość do punktów), a także ma podobne wady (np. Nie jest odporny na wartości odstające).
Matt Krause
4
Powyższa odpowiedź może być niepoprawna. Zobacz ten film: https://www.youtube.com/watch?v=VMyXc3SiEqs Wygląda na to, że średnia sumuje wszystkie kombinacje odległości między elementami klastra 1 i klastra 2 - to znaczy n ^ 2 odległości dodane razem, a następnie dzieli przez n ^ 2 do średniej.
Metoda Centroid najpierw oblicza średnią dla każdego klastra w sobie. Następnie oblicza jedną odległość między tymi średnimi punktami.
Cześć Gabe! Myślę, że mówisz o tej części filmu? O ile mi wiadomo, środek ciężkości i średnia pojedynczego skupienia są takie same, ale, jak wskazałeś, odległość środka ciężkości i średnia odległość między dwoma skupieniami są różnymi miarami. Myślałem, że OP pyta o to pierwsze, ale właśnie o nim trochę redagowałem. Dziękujemy za wskazanie tego (+1) i zapraszamy do Cross Validated!
Matt Krause,
-1
centroid jest średnią punktów danych w klastrze, punkt centroidu nie musi występować w zbiorze danych, podczas gdy medoid jest punktem danych bliższym centroidowi, medoid musi występować w oryginalnych danych
Powyższa odpowiedź może być niepoprawna. Zobacz ten film: https://www.youtube.com/watch?v=VMyXc3SiEqs Wygląda na to, że średnia sumuje wszystkie kombinacje odległości między elementami klastra 1 i klastra 2 - to znaczy n ^ 2 odległości dodane razem, a następnie dzieli przez n ^ 2 do średniej.
Metoda Centroid najpierw oblicza średnią dla każdego klastra w sobie. Następnie oblicza jedną odległość między tymi średnimi punktami.
źródło
centroid jest średnią punktów danych w klastrze, punkt centroidu nie musi występować w zbiorze danych, podczas gdy medoid jest punktem danych bliższym centroidowi, medoid musi występować w oryginalnych danych
źródło