Jakie są najlepsze (zalecane) kroki przetwarzania wstępnego przed wykonaniem k-średnich?
clustering
normalization
k-means
pedrosaurio
źródło
źródło
Odpowiedzi:
Jeśli twoje zmienne mają nieporównywalne jednostki (np. Wzrost w cm i ciężar w kg), powinieneś oczywiście ujednolicić zmienne. Nawet jeśli zmienne mają te same jednostki, ale wykazują całkiem różne wariancje, nadal dobrym pomysłem jest ustandaryzowanie przed średnimi. Widzisz, K-oznacza, że skupianie jest „izotropowe” we wszystkich kierunkach przestrzeni, a zatem ma tendencję do tworzenia mniej więcej okrągłych (a nie wydłużonych) skupień. W tej sytuacji pozostawienie nierówności nierównych jest równoznaczne z przypisaniem większej wagi zmiennym o mniejszej wariancji, więc klastry będą miały tendencję do rozdzielania się wzdłuż zmiennych o większej wariancji.
Oto kilka ogólnych argumentów na temat kwestii standaryzacji funkcji w analizie skupień lub innych analizach wielowymiarowych.
źródło
To chyba zależy od twoich danych. Jeśli chcesz, aby trendy w twoich danych były grupowane niezależnie od wielkości, powinieneś wyśrodkować. na przykład. powiedzmy, że masz jakiś profil ekspresji genów i chcesz zobaczyć trendy w ekspresji genów, a następnie bez średniego centrowania, geny o niskiej ekspresji zgrupują się razem z dala od genów o wysokiej ekspresji, niezależnie od trendów. Centrowanie sprawia, że geny (zarówno o wysokiej, jak i niskiej ekspresji) z podobnymi wzorcami ekspresyjnymi skupiają się razem.
źródło