Ten używany przez opcję „ward.D” (odpowiednik jedynej opcji Ward „ward” w wersjach R <= 3.0.3) nie implementuje kryterium grupowania Warda (1963), natomiast opcja „ward.D2” implementuje to kryterium ( Murtagh i Legendre 2014).
( http://stat.ethz.ch/R-manual/R-pched/library/stats/html/hclust.html )
Najwyraźniej totem D. nie wdraża poprawnie kryterium totemu. Niemniej jednak wydaje się, że dobrze sobie radzi z tworzonymi przez siebie klastrami. Co implementuje metoda = „totem.D”, jeśli nie jest to kryterium totemu?
Bibliografia
Murtagh, F., i Legendre, P. (2014). Hierarchiczna metoda skupiania aglomeracyjnego Warda: które algorytmy implementują kryterium Warda ?. Journal of Classification , 31 (3), 274–295.
r
clustering
ward
Raffael
źródło
źródło
Odpowiedzi:
Odpowiedni manuskrypt znajduje się tutaj .
Różnica między totemem D i totemem D2 jest różnicą między dwoma kryteriami grupowania, które w manuskrypcie nazywane są Totem1 i Totem2.
Zasadniczo sprowadza się to do tego, że algorytm totemu jest bezpośrednio poprawnie zaimplementowany tylko w totem2 (totem2), ale totem1 (totemowy) może być również użyty, jeśli odległości euklidesowe (od
dist()
) zostaną podniesione do kwadratu przed wprowadzeniem ich dohclust()
za pomocą metody tot jako metody.Na przykład SPSS również implementuje Ward1, ale ostrzega użytkowników, że odległości powinny być podniesione do kwadratu, aby uzyskać kryterium Totem. W takim sensie implementacja totem D nie jest przestarzała, ale dobrym pomysłem może być zachowanie go dla kompatybilności wstecznej.
źródło
Ward algorithm is directly correctly implemented in just Ward2
, ale raczej, że: (1) aby uzyskać poprawne wyniki dla obu implementacji, użyj kwadratowych odległości euklidesowych z Totem1 i niekwadratowych odległości euklidesowych z Totem2; (2) w celu dalszego porównania ich wyjściowych dendrogramów (identycznych), zastosuj pierwiastek kwadratowy do poziomów fuzji po Ward1 lub kwadratowych poziomów fuzji po Ward2, przed skonstruowaniem dendrogramu.Jedyną różnicą między
ward.D
&ward.D2
jest parametr wejściowy.hclust(dist(x)^2,method="ward.D")
~hclust(dist(x)^2,method="ward")
które są równoważne:
hclust(dist(x),method="ward.D2")
Możesz znaleźć artykuł ponownie: Hierarchiczna metoda grupowania Warda: kryterium klastrowania i algorytm aglomeracyjny
W Ward2 wartości kryterium są „ w skali od odległości ” natomiast Ward1 wartości kryterium są „ w skali od odległości do kwadratu ”.
źródło
Natknąłem się na artykuł badawczy, który odpowiada funkcji celu, która jest optymalizowana przez „Ward1 (ward.D)”: Hierarchiczne grupowanie poprzez wspólne odległości wewnątrz: Rozszerzanie metody minimalnej wariancji totemu . Okazuje się, że implementacja „Ward1 (ward.D)” R jest równoważna minimalizacji odległości energii między grupami klastrów.
źródło
ward.D2
ward.D1