Mam 17 liczbowych i 5 zmiennych binarnych (0-1), z 73 próbkami w moim zbiorze danych. Muszę przeprowadzić analizę skupień. Wiem, że odległość Gowera jest dobrą miarą dla zbiorów danych ze zmiennymi mieszanymi. Nie mogłem jednak zrozumieć, w jaki sposób odległość Gowera oblicza różnicę między zmiennymi binarnymi . Wydaje mi się, że nie różni się od odległości euklidesowej.
clustering
distance
mixed-type-data
Emrah Bilgiç
źródło
źródło
Gower
? stats.stackexchange.com/a/15313/3277Odpowiedzi:
A co z atrybutami binarnymi o wartościach „m” i „f” dla „męskich” i „żeńskich”?
Czy zdajesz sobie sprawę, że dla zmiennej dwudzielnej wszystko, co możesz uzyskać, to „to samo” czy „inne”? Kluczowa różnica między odległościami nie występuje, jeśli wartość wynosi 1 lub 0; ale jak wiele zmiennych jest łączonych.
źródło
Odległość Gower wykorzystuje Manhattan do obliczania odległości między ciągłymi punktami danych i kości do obliczania odległości między kategorycznymi punktami danych
źródło