Jak w analizie skupień obliczamy czystość? Jakie jest równanie?
Nie szukam kodu, który by to dla mnie zrobił.
Niech będzie klastrem k, a c j będzie klasą j.
Czy czystość jest właściwie dokładnością? wygląda na to, że sumują liczbę prawdziwie sklasyfikowanych klas na klaster na podstawie wielkości próby.
Pytanie brzmi, jaki jest związek między wyjściem a wejściem?
Jeśli jest naprawdę pozytywny (TP), prawdziwie negatywny (TN), fałszywie pozytywny (FP), fałszywie negatywny (FN). Czy to ?
clustering
Iancovici
źródło
źródło
Odpowiedzi:
W kontekście analizy skupień czystość stanowi zewnętrzne kryterium oceny jakości skupień. Jest to procent całkowitej liczby obiektów (punktów danych), które zostały poprawnie sklasyfikowane, w zakresie jednostek [0..1].
gdzieN = liczba obiektów (punktów danych), k = liczba klastrów, ci jest klastrem w C , zaś tj jest klasyfikacją, która ma maksymalną liczbę dla klastra ci
Kiedy mówimy „poprawnie”, który zakłada, że każdy klasterci zidentyfikował grupę obiektów jak do tej samej klasy, że prawda grunt został wskazany. Używamy klasyfikacji ziemia prawdy ti tych obiektów jako miara przypisania poprawności, jednak aby to zrobić musimy wiedzieć, które klaster ci mapuje do zaklasyfikowania ziemia prawdy ti . Gdyby był w 100% dokładny, to każde ci odwzorowałoby dokładnie 1 ti , ale w rzeczywistości nasze ci zawiera pewne punkty, których podstawowa prawda sklasyfikowała je jako kilka innych klasyfikacji. Naturalnie to możemy zauważyć, że najwyższa jakość klastrów zostaną uzyskane za pomocą ci do ti odwzorowania, która ma największą liczbę poprawnych klasyfikacji tzn ci∩ti . To jest, gdy The max pochodzi z równania.
Aby obliczyć czystość, najpierw utwórz macierz nieporozumień. Można tego dokonać, zapętlając poszczególne klastryci licząc, ile obiektów zostało sklasyfikowanych jako każda klasa ti .
źródło