Najwyraźniej w hierarchicznym grupowaniu, w którym miarą odległości jest odległość euklidesowa, dane muszą być najpierw znormalizowane lub znormalizowane, aby zapobiec współzmienności o największej wariancji napędzania grupowania. Dlaczego to? Czy ten fakt nie jest pożądany?
źródło
Jeśli nie ustandaryzujesz swoich danych, zmienne mierzone w jednostkach o dużej wartości zdominują obliczoną odmienność, a zmienne mierzone w jednostkach o małej wartości przyczynią się bardzo niewiele.
Możemy to zwizualizować w R poprzez:
dist1
zawiera odległości euklidesowe dla 100 obserwacji opartych na wszystkich trzech zmiennych, podczas gdydist2
zawiera odległość euklidesową na podstawievar1
samych.Uwaga jak podobne Rozkłady odległości są, wskazując niewielki wkład od
var2
avar3
, a rzeczywiste odległości są bardzo podobne:Jeśli znormalizujemy dane
wtedy następuje duża zmiana odległości opartych tylko na
var1
i na podstawie wszystkich trzech zmiennych:Ponieważ hierarchiczne grupowanie wykorzystuje te odległości, to, czy pożądana jest standaryzacja, czy nie, będzie zależeć od rodzaju posiadanych danych / zmiennych oraz od tego, czy duże rzeczy będą dominować na odległościach, a tym samym dominować w tworzeniu klastrowania. Odpowiedź na to pytanie jest specyficzna dla domeny i zestawu danych.
źródło
Anony-Mousse udzieliła doskonałej odpowiedzi . Chciałbym tylko dodać, że metryka odległości, która ma sens, będzie zależeć od kształtu rozkładów wielowymiarowych. W przypadku wielowymiarowego Gaussa odległość Mahalanobisa jest odpowiednią miarą.
źródło