Nie wiem, jakiej funkcji odległości między osobami należy użyć w przypadku nominalnych (nieuporządkowanych atrybutów kategorialnych). Czytałem jakiś podręcznik i sugerują one funkcję Simple Matching, ale niektóre książki sugerują, że powinienem zmienić atrybuty nominalne na binarne i użyć współczynnika Jaccard . Co jednak, jeśli wartości atrybutu nominalnego nie wynoszą 2? co jeśli w tym atrybucie są trzy lub cztery wartości?
Jakiej funkcji odległości należy użyć dla atrybutów nominalnych?
Odpowiedzi:
Technicznie, aby obliczyć miarę dis (podobieństwa) między jednostkami na atrybutach nominalnych, większość programów najpierw przekodowuje każdą zmienną nominalną na zbiór fałszywych zmiennych binarnych, a następnie oblicza pewną miarę dla zmiennych binarnych. Oto wzory niektórych często używanych binarnych miar podobieństwa i odmienności .
Co to są zmienne obojętne (zwane także „gorącymi”)? Poniżej znajduje się 5 osób, dwie zmienne nominalne (A z 3 kategoriami, B z 2 kategoriami). 3 manekiny utworzone w miejsce A, 2 manekiny utworzone w miejsce B.
(Nie ma potrzeby eliminowania jednej zmiennej fikcyjnej jako „nadmiarowej”, ponieważ zwykle robilibyśmy to w regresji z manekinami. Nie jest to praktykowane w grupowaniu, aczkolwiek w szczególnych sytuacjach możesz rozważyć tę opcję.)
Istnieje wiele środków dla zmiennych binarnych, jednak nie wszystkie z nich logicznie garnitur manekin zmiennych binarnych, czyli dawnych tych nominalnych. Widzisz, dla zmiennej nominalnej fakt, że „dwie osoby pasują do siebie” oraz fakt, że „dwie osoby nie pasują do siebie” są równie ważne. Ale pod popularną Jaccard miara , gdziezaa + b + c
Intuicyjna poprawność współczynnika podobieństwa kości wynika z faktu, że jest to po prostu proporcja współwystępowania (lub względna zgodność ). Dla powyższego fragmentu danych weź kolumnę nominalną
A
i oblicz5x5
kwadratową macierz symetryczną z albo1
(obie osoby należą do tej samej kategorii) albo0
(nie do tej samej kategorii). Oblicz podobnie macierzB
.Zsumuj odpowiednie wpisy dwóch macierzy i podziel przez 2 (liczbę zmiennych nominalnych) - oto macierz współczynników kości. (Tak więc właściwie nie musisz tworzyć manekinów do obliczania kości, dzięki operacjom macierzowym możesz prawdopodobnie zrobić to szybciej w sposób opisany powyżej . ) Zobacz pokrewny temat na kościach, aby uzyskać informacje na temat przypisywania atrybutów nominalnych .
Chociaż kości są najbardziej widoczną miarą, którą należy zastosować, gdy potrzebna jest (nie) funkcja podobieństwa między przypadkami, gdy atrybuty są kategoryczne, można zastosować inne miary binarne - jeśli ich formuła spełni wymagania dotyczące twoich nominalnych danych.
Ale ...
Ponieważ w wielu zastosowaniach macierzy zbliżeniowej, takich jak wiele metod analizy skupień, wyniki nie zmienią się lub zmienią płynnie pod liniową (a czasem nawet monotoniczną) transformacją bliskości, wydaje się, że uzasadnione jest wiele środki binarne oprócz kości, aby uzyskać takie same lub podobne wyniki. Ale najpierw należy rozważyć / zbadać, w jaki sposób konkretna metoda (na przykład powiązanie w hierarchicznym klastrowaniu) reaguje na daną transformację bliskości.
Jeśli planowana analiza skupień lub analiza MDS jest wrażliwa na monotoniczne transformacje odległości, lepiej powstrzymaj się od stosowania miar oznaczonych jako „monotoniczne” w powyższej tabeli (a zatem tak, nie jest dobrym pomysłem stosowanie podobieństwa Jaccarda lub niekwadowanej odległości euklidesowej z manekinem , tj. poprzednie nominalne, atrybuty).
źródło