Korzystam z hierarchicznego grupowania do analizy danych szeregów czasowych. Mój kod jest implementowany za pomocą funkcji MathematicaDirectAgglomerate[...]
, która generuje hierarchiczne klastry przy następujących danych wejściowych:
macierz odległości D
nazwa metody zastosowanej do ustalenia powiązania między klastrami.
Obliczyłem macierz odległości D na podstawie odległości Manhattan:
Moje pytanie brzmi: czy można używać połączenia między klastrami Warda z macierzą odległości Manhattanu? Niektóre źródła sugerują, że powiązanie Totemu powinno być używane tylko z odległością euklidesową.
DirectAgglomerate[...]
(Inne narzędzia programowe, takie jak Matlab i R, również implementują grupowanie Warda za pomocą tylko macierzy odległości, więc pytanie nie jest specyficzne dla Mathematica.)
źródło
agnes
w pakiecie klastra .Odpowiedzi:
Algorytm grupowania totemów jest hierarchiczną metodą grupowania, która minimalizuje kryteria „bezwładności” na każdym etapie. Ta bezwładność określa ilościowo sumę kwadratów reszt pomiędzy sygnałem zredukowanym a sygnałem początkowym: jest to miara wariancji błędu w sensie l2 (euklidesowym). Właściwie nawet wspominasz o tym w swoim pytaniu. Dlatego uważam, że nie ma sensu stosować go do macierzy odległości, która nie jest odległością euklidesową 12.
Z drugiej strony przeciętne połączenie lub hierarchiczne grupowanie pojedynczego połączenia byłoby idealnie odpowiednie dla innych odległości.
źródło
Nie mogę wymyślić żadnego powodu, dla którego Totem powinien faworyzować jakąkolwiek metrykę. Metoda Totemu jest kolejną opcją, która decyduje, które klastry zostaną połączone podczas aglomeracji. Osiąga się to poprzez znalezienie dwóch klastrów, których połączenie zminimalizuje pewien błąd ( przykładowe źródło formuły ).
Dlatego opiera się na dwóch koncepcjach:
Tak więc: dopóki właściwości wybranej metryki (takie jak np. Rotacja, tłumaczenie lub niezmienność skali) zaspokoją twoje potrzeby (a metryka pasuje do sposobu obliczania średniej klastra), nie widzę powodu, aby z niej nie korzystać .
Podejrzewam, że większość ludzi sugeruje metrykę euklidesową, ponieważ oni
źródło
źródło