Jaka jest optymalna funkcja odległości dla osób, gdy atrybuty są nominalne?

12

Nie wiem, jakiej funkcji odległości między osobami należy użyć w przypadku nominalnych (nieuporządkowanych atrybutów kategorialnych). Czytałem jakiś podręcznik i sugerują one funkcję Simple Matching, ale niektóre książki sugerują, że powinienem zmienić atrybuty nominalne na binarne i użyć współczynnika Jaccard . Co jednak, jeśli wartości atrybutu nominalnego nie wynoszą 2? co jeśli w tym atrybucie są trzy lub cztery wartości?

Jakiej funkcji odległości należy użyć dla atrybutów nominalnych?

Jane Doe
źródło
1
Uznałem ten post za przydatny w statystyce Cramera V i Chi do kwadratu.
KarthikS,

Odpowiedzi:

18

Technicznie, aby obliczyć miarę dis (podobieństwa) między jednostkami na atrybutach nominalnych, większość programów najpierw przekodowuje każdą zmienną nominalną na zbiór fałszywych zmiennych binarnych, a następnie oblicza pewną miarę dla zmiennych binarnych. Oto wzory niektórych często używanych binarnych miar podobieństwa i odmienności .

Co to są zmienne obojętne (zwane także „gorącymi”)? Poniżej znajduje się 5 osób, dwie zmienne nominalne (A z 3 kategoriami, B z 2 kategoriami). 3 manekiny utworzone w miejsce A, 2 manekiny utworzone w miejsce B.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Nie ma potrzeby eliminowania jednej zmiennej fikcyjnej jako „nadmiarowej”, ponieważ zwykle robilibyśmy to w regresji z manekinami. Nie jest to praktykowane w grupowaniu, aczkolwiek w szczególnych sytuacjach możesz rozważyć tę opcję.)

Istnieje wiele środków dla zmiennych binarnych, jednak nie wszystkie z nich logicznie garnitur manekin zmiennych binarnych, czyli dawnych tych nominalnych. Widzisz, dla zmiennej nominalnej fakt, że „dwie osoby pasują do siebie” oraz fakt, że „dwie osoby nie pasują do siebie” są równie ważne. Ale pod popularną Jaccard miara , gdziezaza+b+do

  • a - liczba manekinów 1 dla obu osób
  • b - liczba manekinów 1 za to i 0 za to
  • c - liczba manekinów 0 za to i 1 za to
  • d - liczba manekinów 0 dla obu

bdozaza2)za2)za+b+dodystans. Zobacz, ile synonimów - na pewno znajdziesz coś takiego w swoim oprogramowaniu!

Intuicyjna poprawność współczynnika podobieństwa kości wynika z faktu, że jest to po prostu proporcja współwystępowania (lub względna zgodność ). Dla powyższego fragmentu danych weź kolumnę nominalną Ai oblicz 5x5kwadratową macierz symetryczną z albo 1(obie osoby należą do tej samej kategorii) albo 0(nie do tej samej kategorii). Oblicz podobnie macierz B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Zsumuj odpowiednie wpisy dwóch macierzy i podziel przez 2 (liczbę zmiennych nominalnych) - oto macierz współczynników kości. (Tak więc właściwie nie musisz tworzyć manekinów do obliczania kości, dzięki operacjom macierzowym możesz prawdopodobnie zrobić to szybciej w sposób opisany powyżej . ) Zobacz pokrewny temat na kościach, aby uzyskać informacje na temat przypisywania atrybutów nominalnych .

Chociaż kości są najbardziej widoczną miarą, którą należy zastosować, gdy potrzebna jest (nie) funkcja podobieństwa między przypadkami, gdy atrybuty są kategoryczne, można zastosować inne miary binarne - jeśli ich formuła spełni wymagania dotyczące twoich nominalnych danych.

za+reza+b+do+rerereb+dorere2)=p(1-S.M.)p

Ale ...

re

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Ponieważ w wielu zastosowaniach macierzy zbliżeniowej, takich jak wiele metod analizy skupień, wyniki nie zmienią się lub zmienią płynnie pod liniową (a czasem nawet monotoniczną) transformacją bliskości, wydaje się, że uzasadnione jest wiele środki binarne oprócz kości, aby uzyskać takie same lub podobne wyniki. Ale najpierw należy rozważyć / zbadać, w jaki sposób konkretna metoda (na przykład powiązanie w hierarchicznym klastrowaniu) reaguje na daną transformację bliskości.

Jeśli planowana analiza skupień lub analiza MDS jest wrażliwa na monotoniczne transformacje odległości, lepiej powstrzymaj się od stosowania miar oznaczonych jako „monotoniczne” w powyższej tabeli (a zatem tak, nie jest dobrym pomysłem stosowanie podobieństwa Jaccarda lub niekwadowanej odległości euklidesowej z manekinem , tj. poprzednie nominalne, atrybuty).

ttnphns
źródło
tak, masz rację wartości ... więc jeden atrybut ma trzy możliwe wartości
Jane Doe
2
załóżmy, że mam dwie wartości tego samego atrybutu: „piłka”, „nall”, „pall” i przekonwertowałem to na 11 01 i 00. Chcę zmierzyć odległość Jaccard między 11 a 00. W tym przypadku jest to odległość 1? skoro a = 0 b = 2 c = 0 id = 0? proszę daj mi znać!
Jane Doe,
Brakuje mi punktu ostatniego komentarza. Proszę pytać wyraźnie. Lub wykorzystaj moje powyższe przykładowe dane z 5 osobami i 2 nominalnymi atrybutami i powiedz, z którą osobą chciałbyś mnie porównać i według jakiej miary (podobieństwa).
ttnphns