Chcę przypisać różną wagę do zmiennych w mojej analizie skupień, ale wydaje się, że mój program (Stata) nie ma takiej opcji, więc muszę to zrobić ręcznie.
Wyobraź sobie 4 zmienne A, B, C, D. Wagi tych zmiennych powinny wynosić
w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%
Zastanawiam się, czy jedno z następujących dwóch podejść rzeczywiście by załatwiło sprawę:
- Najpierw standaryzuję wszystkie zmienne (np. Według ich zakresu). Następnie mnożę każdą znormalizowaną zmienną przez ich wagę. Następnie wykonaj analizę skupień.
- Mnożę wszystkie zmienne przez ich wagę, a następnie standaryzuję je. Następnie wykonaj analizę skupień.
Czy oba pomysły są kompletnymi bzdurami?
[EDYCJA] Algorytmy grupowania (próbuję 3 różne), których chcę użyć, to k-średnie, średnie ważone połączenie i średnie połączenie. Planuję użyć powiązania średniej ważonej, aby wyznaczyć dobrą liczbę klastrów, które potem podłączam do k-średnich.
clustering
stata
SPi
źródło
źródło
Odpowiedzi:
Jednym ze sposobów przypisania wagi do zmiennej jest zmiana jej skali. Sztuczka działa w przypadku algorytmów klastrowania, o których wspominasz, mianowicie. średnie k, średnie ważone sprzężenie i średnie sprzężenie.
Kaufman, Leonard i Peter J. Rousseeuw. „ Znajdowanie grup w danych: wprowadzenie do analizy skupień ”. (2005) - strona 11:
Abrahamowicz, M. (1985), Wykorzystanie nieliczbowej informacji „pnon” do pomiaru różnic, artykuł zaprezentowany na Czwartym Europejskim Spotkaniu Towarzystwa Psychometrycznego i Towarzystw Klasyfikacyjnych, 2–5 lipca, Cambridge (Wielka Brytania).
Friedman, HP i Rubin, J. (1967), O niektórych niezmiennych kryteriach grupowania danych. J. Amer. Statystyk. ASSOC6., 2, 1159-1178.
Hardy, A., i Rasson, JP (1982), Une nouvelle approche des problemes de klasyfikation automique, Statist. Analny. Donnies, 7, 41–56.
źródło