Jaka intuicja kryje się za metryką zmienności informacji (VI) do walidacji klastra?

11

Dla takich statystycznych statystów jak ja bardzo trudno jest uchwycić ideę VImetryki (zmienności informacji) nawet po przeczytaniu odpowiedniego artykułu Marina Melii „ Porównywanie klastrów - odległość oparta na informacjach ” (Journal of Multivariate Analysis, 2007). W rzeczywistości nie znam wielu warunków klastrowania.

Poniżej znajduje się MWE i chciałbym wiedzieć, co oznacza wynik w różnych zastosowanych wskaźnikach. Mam te dwa klastry w R i w tej samej kolejności id:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

Teraz dokonujemy porównań na podstawie, VIjak również innych wskaźników / wskaźników oraz w porządku chronologicznym ich pojawiania się w literaturze.

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

Jak widać, VIwartość była różna od wszystkich pozostałych.

  • Co mówi ta wartość (i jak jest powiązana z poniższym rysunkiem)?
  • Jakie są wytyczne dotyczące uznania tej wartości za niską lub wysoką?
  • Czy zdefiniowano jakieś wytyczne?

Może eksperci w tej dziedzinie mogą podać sensowne opisy dla laików takich jak ja, próbując zgłosić takie wyniki. Byłbym naprawdę wdzięczny, gdyby ktoś dostarczył również wytyczne dla innych wskaźników (kiedy wziąć pod uwagę, że wartość jest duża lub mała, tj. W odniesieniu do podobieństwa między dwoma klastrami).

Czytałem powiązane wątki CV tu i tutaj , ale wciąż nie mogłem pojąć intuicji VI. Czy ktoś może to wytłumaczyć zwykłym angielskim?

Poniższy rysunek przedstawia rycinę 2 z wyżej wspomnianego artykułu VI.

wprowadź opis zdjęcia tutaj

doktorat
źródło
2
Wszystkie te podobieństwa i metryki (zauważ różnicę między tymi dwoma typami) mierzą w taki czy inny sposób stopień fragmentacji związany z największym wspólnym podgrupowaniem między dwiema partycjami. Wszystkie używają tak zwanej macierzy zamieszania. Biorąc pod uwagę dokładną formułę dla VI, można zrozumieć, że mierzy to fragmentację. Proponuję przyjrzeć się formule w jednej z publikacji Meili, a także poczytać o znormalizowanych wersjach wszystkich tych odległości, ponieważ wszystkie mają różne skale. To może być najważniejszy punkt.
micans
Walczyłem również z interpretacją VI i uznałem ten artykuł za bardzo przydatny!
Pizza

Odpowiedzi:

1

Musisz zdać sobie sprawę, że środki mogą mieć różną interpretację.

Sądząc po twoim spisku, niskie VI jest dobre.

1 - 0.2451685 = 0.7548315

co jest znacznie bardziej zgodne z innymi środkami.

Należy jednak pamiętać, że większość tych środków mierzy coś innego .

Nie ma powodu, aby zakładać, że tylko dlatego, że jedna miara wynosi 0,8, inna również powinna wynosić 0,8

Ma ZAKOŃCZENIE - Anony-Mus
źródło
Myślę, że OP byłby wdzięczny, gdybyś mógł wyjaśnić, co różni każdy z nich mierzy.
gung - Przywróć Monikę
Nie znam ich wystarczająco dobrze, by wyjaśnić każdą z nich. Jest po prostu jasne, że nie mają porównywalnej skali / jednostki. Podobnie jak wolty i stopy nie są porównywalne.
Ma ZAKOŃCZENIE - Anony-Mousse