Przypisz wagi do zmiennych w analizie skupień

Chcę przypisać różną wagę do zmiennych w mojej analizie skupień, ale wydaje się, że mój program (Stata) nie ma takiej opcji, więc muszę to zrobić ręcznie.

Wyobraź sobie 4 zmienne A, B, C, D. Wagi tych zmiennych powinny wynosić

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Zastanawiam się, czy jedno z następujących dwóch podejść rzeczywiście by załatwiło sprawę:

Najpierw standaryzuję wszystkie zmienne (np. Według ich zakresu). Następnie mnożę każdą znormalizowaną zmienną przez ich wagę. Następnie wykonaj analizę skupień.
Mnożę wszystkie zmienne przez ich wagę, a następnie standaryzuję je. Następnie wykonaj analizę skupień.

Czy oba pomysły są kompletnymi bzdurami?

[EDYCJA] Algorytmy grupowania (próbuję 3 różne), których chcę użyć, to k-średnie, średnie ważone połączenie i średnie połączenie. Planuję użyć powiązania średniej ważonej, aby wyznaczyć dobrą liczbę klastrów, które potem podłączam do k-średnich.

clustering stata SPi
źródło

Oba sposoby są na ogół nieprawidłowe. Mnożenie wartości zmiennych nie jest równoważne ważeniu wartości zmiennej dla grupowania. Jeśli program nie ma opcji ważenia, możesz to zrobić czasami z danymi, jak chcesz - ale zależy to od dokładnej natury klastrowania. Opisz więc (w pytaniu) szczegóły swojego klastrowania: jakiego algorytmu i metody zamierzasz użyć.

ttnphns

Zauważ, że najłatwiejszym i uniwersalnym sposobem ważenia zmiennych (a wagi są liczbami całkowitymi lub mogą być liczbami całkowitymi) byłoby po prostu propagowanie zmiennych razy te wagi. W twoim przykładzie możesz wziąć 50 As, 25 Bs, 10 Cs, 15 Ds w swojej grupie.

ttnphns

Lub alternatywa: jeśli używasz grupowania na podstawie miary euklidesowej lub używasz k-średnich, pomnóż każdą zmienną przez pierwiastek kwadratowy jej wagi. Mnożenie to powinno oczywiście odbywać się po jakimkolwiek przetwarzaniu wstępnym (takim jak standaryzacja), które możesz chcieć zrobić przed klastrowaniem.

ttnphns

Jednym ze sposobów przypisania wagi do zmiennej jest zmiana jej skali. Sztuczka działa w przypadku algorytmów klastrowania, o których wspominasz, mianowicie. średnie k, średnie ważone sprzężenie i średnie sprzężenie.

Kaufman, Leonard i Peter J. Rousseeuw. „ Znajdowanie grup w danych: wprowadzenie do analizy skupień ”. (2005) - strona 11:

Wybór jednostek miary powoduje wzrost względnych wag zmiennych. Wyrażenie zmiennej w mniejszych jednostkach doprowadzi do większego zakresu dla tej zmiennej, co będzie miało duży wpływ na wynikową strukturę. Z drugiej strony, poprzez standaryzację jednej próby nadania wszystkim zmiennym jednakowej wagi, w nadziei na osiągnięcie obiektywności. Jako taki może być stosowany przez praktyka, który nie posiada wcześniejszej wiedzy. Jednak może się zdarzyć, że niektóre zmienne są z natury ważniejsze niż inne w konkretnym zastosowaniu, a następnie przyporządkowanie wag powinno opierać się na wiedzy przedmiotowej (patrz np. Abrahamowicz, 1985).

Z drugiej strony podjęto próby opracowania technik klastrowania, które są niezależne od skali zmiennych (Friedman i Rubin, 1967). Propozycja Hardy'ego i Rassona (1982) polega na poszukiwaniu partycji, która minimalizuje całkowitą objętość wypukłych kadłubów klastrów. Zasadniczo taka metoda jest niezmienna w odniesieniu do transformacji liniowych danych, ale niestety nie istnieje algorytm do jej realizacji (z wyjątkiem przybliżenia ograniczonego do dwóch wymiarów). Dlatego dylemat standaryzacji wydaje się obecnie nieunikniony, a programy opisane w tej książce pozostawiają wybór użytkownikowi

Abrahamowicz, M. (1985), Wykorzystanie nieliczbowej informacji „pnon” do pomiaru różnic, artykuł zaprezentowany na Czwartym Europejskim Spotkaniu Towarzystwa Psychometrycznego i Towarzystw Klasyfikacyjnych, 2–5 lipca, Cambridge (Wielka Brytania).

Friedman, HP i Rubin, J. (1967), O niektórych niezmiennych kryteriach grupowania danych. J. Amer. Statystyk. ASSOC6., 2, 1159-1178.

Hardy, A., i Rasson, JP (1982), Une nouvelle approche des problemes de klasyfikation automique, Statist. Analny. Donnies, 7, 41–56.

Franck Dernoncourt
źródło

Twoje pierwsze odniesienie jest w jakiś sposób zniekształcone: Leonard Kaufman i Peter J. Rousseeuw są autorami książki, do której linkujesz.

Nick Cox

Och, dziękuję za zwrócenie na to uwagi ... Przykręcił mnie Lavoisier, który popełnił błąd na ich stronie „Auteurs: SEWELL Grandville, ROUSSEEUW Peter J.”, co z kolei spieprzyło Gscholara, którego użyłem do uzyskania referencji.

Franck Dernoncourt

Dzięki @FranckDernoncourt! Jeśli skala (a więc i zakres) zmiennej determinuje jej wagę, czy nie zbliżyłaby się do 1.) w moim początkowym pytaniu byłoby w jakiś sposób poprawnym rozwiązaniem?

SPi

Tak, podejście 1 jest właściwe i odpowiada temu, co mówią Kaufman, Leonard i Peter J. Rousseeuw w akapitach cytowanych w odpowiedzi. Podejście 2 byłoby bezużyteczne, ponieważ normalizacja usuwa ciężary :)

Franck Dernoncourt

Przypisz wagi do zmiennych w analizie skupień

Odpowiedzi: