Współczynniki podobieństwa dla danych binarnych: Dlaczego warto wybrać Jaccard zamiast Russell i Rao?

20

Z Encyklopedii Nauk Statystycznych Rozumiem, że dany dychotomiczne (binarne: 1 = obecna; 0 = brak) atrybuty (zmienne), możemy utworzyć tabelę interwencyjny dla dowolnych dwóch przedmiotów í i j próbki: $p$

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Możemy obliczyć na podstawie tych wartości współczynniki podobieństwa między dowolną parą obiektów, w szczególności współczynnik Jaccard oraz współczynnik Russella i Rao

\frac{za}{za + b + do}

$\frac{a}{a+b+c}$

\frac{za}{za + b + do + re} = \frac{za}{p} .

$\frac{a}{a+b+c+d} = \frac{a}{p}.$

$d$

binary-data similarities association-measure wflynny
źródło

14

Istnieje wiele takich współczynników (większość jest tutaj wyrażona ). Po prostu spróbuj medytować o konsekwencjach różnic w formułach, zwłaszcza podczas obliczania macierzy współczynników.

Wyobraź sobie na przykład, że obiekty 1 i 2 są podobne, jak obiekty 3 i 4. Ale 1 i 2 mają wiele atrybutów na liście, a 3 i 4 mają tylko kilka atrybutów. W takim przypadku Russell-Rao (proporcja współużytkowanych atrybutów do całkowitej liczby rozważanych atrybutów) będzie wysoka dla pary 1-2 i niska dla pary 3-4. Ale Jaccard (proporcja wspólnych atrybutów do łącznej liczby atrybutów, które oba obiekty mają = prawdopodobieństwo, że jeśli któryś z obiektów ma atrybut, to oba mają go), będzie wysoki dla obu par 1-2 i 3-4.

(\frac{za}{za + b} + \frac{za}{za + do}) / 2)

$(\frac{a}{a+b} + \frac{a}{a+c}) /2$

\sqrt{\frac{za}{za + b} \frac{za}{za + do}}

$\sqrt {\frac{a}{a+b} \frac{a}{a+c}}$

b

$b$

c

$c$ są równe. Ochiai jest w rzeczywistości miarą podobieństwa cosinusowego (a Russell-Rao jest podobieństwem iloczynu kropkowego).

PS

Czy to tylko dlatego, że w przypadku niektórych zestawów danych jednoczesny brak obu atrybutów (d) nie przenosi żadnych informacji?

$d$

Zauważ też, że jeśli chcesz obliczyć podobieństwo między obiektami w oparciu o atrybuty nominalne 1+ (dychotomiczne lub wielomianowe), przekoduj każdą taką zmienną do zestawu zmiennych binarnych. Następnie zalecaną miarą podobieństwa do obliczenia będą kości ( które , obliczone dla 1+ zestawów zmiennych obojętnych, są równoważne Ochiai i Kulczyński-2).

ttnphns
źródło

2

Domniemana analogia z „dychotomią” sugeruje różne terminy dla klasyfikacji z więcej niż dwiema kategoriami. „Polytomous” jest preferowany językowo niż „polichotomous”, który opiera się na błędnym przypuszczeniu, że „dychotomiczny” rozpada się na dwa greckie korzenie, „di" i „chotomous". Związki „multifhotomiczne”, które popełniają błąd przy użyciu łacińskiego katalogu głównego. Chociaż słowa o odrębnych korzeniach łacińskich i greckich przetrwały pogardę dla lingwistów (np. „Telewizja”), zalecam użycie tutaj „politomii”.

Nick Cox,

Dziękuję za przypomnienie. Tak naprawdę wiedziałam, o czym mówisz, i sama staram się być purystką ... kiedy mi się nie spieszy. Zmienię to.

ttnphns,

3

Przydatność współczynnika Tanimoto nad tradycyjną dokładnością (tj. Russell-Rao) jest widoczna w analizie obrazu, gdy porównuje się segmentację ze złotym standardem. Rozważ te dwa obrazy:

Na każdym z tych obrazów, które są binarnymi „maskami”, mamy dwa obiekty tego samego rozmiaru, ale umieszczone w nieco innych miejscach, i chcemy ocenić, w jakim stopniu te obiekty mają identyczny kształt i położenie, oceniając ich nakładanie się. Zwykle jedna (np. Fioletowa maska) to segmentacja (wytwarzana przez algorytm komputerowy), np. Może to być próba zlokalizowania serca na podstawie obrazu medycznego. Drugi (np. Zielony) to złoty standard (tj. Serce określone przez specjalistę klinicysty). Tam, gdzie jest biały kolor, oba kształty zachodzą na siebie. Czarne piksele są tłem.

Dwa obrazy są identyczne (tj. Wynik algorytmu segmentacji, a także złoty standard, są takie same na obu obrazach), z wyjątkiem dużej ilości „wypełnienia” tła na drugim obrazie (np. Może to reprezentować dwa eksperymenty z dwie różne aparaty rentgenowskie, gdzie druga maszyna miała szerszy promień obejmujący większą powierzchnię ciała, ale poza tym wielkość serca jest taka sama w obu zestawach obrazów).

Oczywiście, ponieważ segmentacja i złoty standard na obu obrazach są identyczne, jeśli ocenimy dokładność segmentacji w stosunku do złotego standardu, chcielibyśmy, aby nasza metryka dawała ten sam wynik „dokładności” w obu eksperymentach.

Jeśli jednak spróbujemy ocenić jakość segmentacji przy użyciu metody Russel-Rao, uzyskamy myląco wysoką dokładność dla właściwego obrazu (blisko 100%), ponieważ „piksele tła poprawnie zidentyfikowane jako piksele tła” przyczyniają się do ogólna dokładność zestawów, a piksele tła są nieproporcjonalnie reprezentowane w drugim zestawie. Obiekty, które pokrywają się w segmentacji medycznej, są często drobnymi plamkami na masywnym tle, więc nie jest to dla nas bardzo przydatne. Co więcej, prowadziłoby to do problemów, gdybyśmy próbowali porównać dokładność jednego algorytmu segmentacji z innym, a oba zostały ocenione na obrazach o różnych rozmiarach! (lub równoważnie w różnych skalach).Skalowanie / rozmiar osadzanego obrazu nie powinno mieć znaczenia w ocenie segmentacji w stosunku do złotego standardu! .

Natomiast współczynnik tanimoto nie przejmuje się pikselami tła, przez co jest niezmienny w przypadku „skalowania”. Jeśli chodzi o współczynnik tanimoto, podobieństwo obu tych zestawów będzie identyczne, co czyni nas o wiele bardziej użyteczną miarą podobieństwa, którą możemy wykorzystać do oceny jakości algorytmu segmentacji.

Tasos Papastylianou
źródło

Współczynniki podobieństwa dla danych binarnych: Dlaczego warto wybrać Jaccard zamiast Russell i Rao?

Odpowiedzi: