Czy potrzebna jest normalizacja średnia i skalowanie funkcji dla grupowania k-średnich?

Odpowiedzi:

63

Jeśli twoje zmienne mają nieporównywalne jednostki (np. Wzrost w cm i ciężar w kg), powinieneś oczywiście ujednolicić zmienne. Nawet jeśli zmienne mają te same jednostki, ale wykazują całkiem różne wariancje, nadal dobrym pomysłem jest ustandaryzowanie przed średnimi. Widzisz, K-oznacza, że ​​skupianie jest „izotropowe” we wszystkich kierunkach przestrzeni, a zatem ma tendencję do tworzenia mniej więcej okrągłych (a nie wydłużonych) skupień. W tej sytuacji pozostawienie nierówności nierównych jest równoznaczne z przypisaniem większej wagi zmiennym o mniejszej wariancji, więc klastry będą miały tendencję do rozdzielania się wzdłuż zmiennych o większej wariancji.

wprowadź opis zdjęcia tutaj

1

Oto kilka ogólnych argumentów na temat kwestii standaryzacji funkcji w analizie skupień lub innych analizach wielowymiarowych.


1

ttnphns
źródło
2
Losowanie, ponowne uruchomienie, uśrednianie i końcowy przebieg to bardzo dobra rada. Dzięki
pedrosaurio,
1
W jaki sposób k-średnie byłoby wrażliwe na zamawianie?
SmallChess
1
@StudentT, dodałem do tego przypis. Dziękuję Ci.
ttnphns
1
@ttnphns jak ustalić ilościowo, że zmienne mają „całkiem różne wariancje”?
Herman Toothrot
1
@camillejr, zacznij od sprawdzenia tego Q: stats.stackexchange.com/q/418427/3277 .
ttnphns
4

To chyba zależy od twoich danych. Jeśli chcesz, aby trendy w twoich danych były grupowane niezależnie od wielkości, powinieneś wyśrodkować. na przykład. powiedzmy, że masz jakiś profil ekspresji genów i chcesz zobaczyć trendy w ekspresji genów, a następnie bez średniego centrowania, geny o niskiej ekspresji zgrupują się razem z dala od genów o wysokiej ekspresji, niezależnie od trendów. Centrowanie sprawia, że ​​geny (zarówno o wysokiej, jak i niskiej ekspresji) z podobnymi wzorcami ekspresyjnymi skupiają się razem.

Nightwriter
źródło
W rzeczywistości porównuję różne funkcje, które mają własną skalę. Na przykład porównuję zawartość GC, która ma zakres od około 0,3 do 0,5, co może wydawać się małe, ale różnica jest dość ważna; niektóre inne funkcje mają szersze zakresy, niektóre inne w bardzo małych skalach.
pedrosaurio
Czy grupujesz różne czynniki? Przydałoby się trochę wagi lub transformacji wartości.
Nightwriter
Nie, porównuję wszystkie zmienne ciągłe
pedrosaurio,