Z Encyklopedii Nauk Statystycznych Rozumiem, że dany dychotomiczne (binarne: 1 = obecna; 0 = brak) atrybuty (zmienne), możemy utworzyć tabelę interwencyjny dla dowolnych dwóch przedmiotów í i j próbki:
j
1 0
-------
1 | a | b |
i -------
0 | c | d |
-------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.
Możemy obliczyć na podstawie tych wartości współczynniki podobieństwa między dowolną parą obiektów, w szczególności współczynnik Jaccard oraz współczynnik Russella i Rao a
Przydatność współczynnika Tanimoto nad tradycyjną dokładnością (tj. Russell-Rao) jest widoczna w analizie obrazu, gdy porównuje się segmentację ze złotym standardem. Rozważ te dwa obrazy:
Na każdym z tych obrazów, które są binarnymi „maskami”, mamy dwa obiekty tego samego rozmiaru, ale umieszczone w nieco innych miejscach, i chcemy ocenić, w jakim stopniu te obiekty mają identyczny kształt i położenie, oceniając ich nakładanie się. Zwykle jedna (np. Fioletowa maska) to segmentacja (wytwarzana przez algorytm komputerowy), np. Może to być próba zlokalizowania serca na podstawie obrazu medycznego. Drugi (np. Zielony) to złoty standard (tj. Serce określone przez specjalistę klinicysty). Tam, gdzie jest biały kolor, oba kształty zachodzą na siebie. Czarne piksele są tłem.
Dwa obrazy są identyczne (tj. Wynik algorytmu segmentacji, a także złoty standard, są takie same na obu obrazach), z wyjątkiem dużej ilości „wypełnienia” tła na drugim obrazie (np. Może to reprezentować dwa eksperymenty z dwie różne aparaty rentgenowskie, gdzie druga maszyna miała szerszy promień obejmujący większą powierzchnię ciała, ale poza tym wielkość serca jest taka sama w obu zestawach obrazów).
Oczywiście, ponieważ segmentacja i złoty standard na obu obrazach są identyczne, jeśli ocenimy dokładność segmentacji w stosunku do złotego standardu, chcielibyśmy, aby nasza metryka dawała ten sam wynik „dokładności” w obu eksperymentach.
Jeśli jednak spróbujemy ocenić jakość segmentacji przy użyciu metody Russel-Rao, uzyskamy myląco wysoką dokładność dla właściwego obrazu (blisko 100%), ponieważ „piksele tła poprawnie zidentyfikowane jako piksele tła” przyczyniają się do ogólna dokładność zestawów, a piksele tła są nieproporcjonalnie reprezentowane w drugim zestawie. Obiekty, które pokrywają się w segmentacji medycznej, są często drobnymi plamkami na masywnym tle, więc nie jest to dla nas bardzo przydatne. Co więcej, prowadziłoby to do problemów, gdybyśmy próbowali porównać dokładność jednego algorytmu segmentacji z innym, a oba zostały ocenione na obrazach o różnych rozmiarach! (lub równoważnie w różnych skalach).Skalowanie / rozmiar osadzanego obrazu nie powinno mieć znaczenia w ocenie segmentacji w stosunku do złotego standardu! .
Natomiast współczynnik tanimoto nie przejmuje się pikselami tła, przez co jest niezmienny w przypadku „skalowania”. Jeśli chodzi o współczynnik tanimoto, podobieństwo obu tych zestawów będzie identyczne, co czyni nas o wiele bardziej użyteczną miarą podobieństwa, którą możemy wykorzystać do oceny jakości algorytmu segmentacji.
źródło