Usiłuję ocenić wydajność klastrowania. Czytałem dokumentację skiscit-learn dotyczącą metryk . Nie rozumiem różnicy między ARI a AMI. Wydaje mi się, że robią to samo na dwa różne sposoby.
Cytowanie z dokumentacji:
Biorąc pod uwagę znajomość podstawowych przypisań do klasy prawdy label_true i nasz algorytm grupowania tych samych próbek label_pred, skorygowany indeks Rand jest funkcją, która mierzy podobieństwo dwóch przypisań, ignorując permutacje i normalizując szanse.
vs
Biorąc pod uwagę znajomość podstawowych przypisań do klasy prawdy label_true i nasze przypisania algorytmów klastrowych tych samych próbek label_pred, informacja wzajemna jest funkcją, która mierzy zgodność dwóch zadań, ignorując permutacje ... AMI zostało zaproponowane niedawno i jest znormalizowane względem szansa.
Czy powinienem użyć ich obu w mojej ocenie klastrów, czy byłoby to zbędne?
źródło
Odpowiedzi:
Są dwa z kilkunastu, którzy wszyscy próbują porównać skupienia.
Ale nie są równoważne. Używają innej teorii.
Czasami ARI może preferować jeden wynik, a AMI inny. Ale często zgadzają się w preferencjach (nie w liczbach).
źródło
Ogólna zasada jest następująca:
Pracowałem nad tym tematem. Odniesienie: Korekta dla miar porównawczych szans klastra
źródło