Jak obliczyć czystość?

Jak w analizie skupień obliczamy czystość? Jakie jest równanie?

Nie szukam kodu, który by to dla mnie zrobił.

wprowadź opis zdjęcia tutaj

Niech będzie klastrem k, a będzie klasą j. $\omega_k$ $c_j$

Czy czystość jest właściwie dokładnością? wygląda na to, że sumują liczbę prawdziwie sklasyfikowanych klas na klaster na podstawie wielkości próby.

źródło równania

Pytanie brzmi, jaki jest związek między wyjściem a wejściem?

Jeśli jest naprawdę pozytywny (TP), prawdziwie negatywny (TN), fałszywie pozytywny (FP), fałszywie negatywny (FN). Czy to ? $Purity = \frac{TP_K}{(TP+TN+FP+FN)}$

clustering Iancovici
źródło

Jeśli potrzebujesz tylko szybkiej definicji: najlepsze wyszukiwarki Google dotyczące czystości klastrów ** tutaj, podając definicję matematyczną. (** przynajmniej dla mnie - Twoje indywidualne wyniki mogą się różnić)

Glen_b

Nie mam pojęcia, co rozumiesz przez „czystość”, ale David Colquhoun używa „czarnego magicznego testu czystości serca” jako przykładu dwumianowego pobierania próbek na s. 111–114 swojego doskonałego podręcznika „Wykłady o biostatystyce” (1971), który jest dostępny jako bezpłatny plik PDF na stronie autora: dcscience.net Nawet jeśli nie ma znaczenia dla twojego pytania, jest to świetna historia.

Michael Lew

W drzewach klasyfikacyjnych niektóre funkcje do pomiaru zanieczyszczenia to: błąd rekonstytucji, indeks gini i entropia. (Drzewa klasyfikacyjne wykonują określoną formę grupowania, więc myślę, że powinno to być istotne.) Mam nadzieję, że to pomoże!

Angelorf

Odpowiedzi:

W kontekście analizy skupień czystość stanowi zewnętrzne kryterium oceny jakości skupień. Jest to procent całkowitej liczby obiektów (punktów danych), które zostały poprawnie sklasyfikowane, w zakresie jednostek [0..1].

P u r i t y = \frac{1}{N} \sum_{i = 1}^{k} m a x_{j} | c_{i} \cap t_{j} |

$Purity = \frac 1 N \sum_{i=1}^k max_j | c_i \cap t_j |$

gdzie $N$ = liczba obiektów (punktów danych), $k$ = liczba klastrów, $c_i$ jest klastrem w $C$ , zaś $t_j$ jest klasyfikacją, która ma maksymalną liczbę dla klastra $c_i$

Kiedy mówimy „poprawnie”, który zakłada, że każdy klaster $c_i$ zidentyfikował grupę obiektów jak do tej samej klasy, że prawda grunt został wskazany. Używamy klasyfikacji ziemia prawdy $t_i$ tych obiektów jako miara przypisania poprawności, jednak aby to zrobić musimy wiedzieć, które klaster $c_i$ mapuje do zaklasyfikowania ziemia prawdy $t_i$ . Gdyby był w 100% dokładny, to każde $c_i$ odwzorowałoby dokładnie 1 $t_i$ , ale w rzeczywistości nasze $c_i$ zawiera pewne punkty, których podstawowa prawda sklasyfikowała je jako kilka innych klasyfikacji. Naturalnie to możemy zauważyć, że najwyższa jakość klastrów zostaną uzyskane za pomocą $c_i$ do $t_i$ odwzorowania, która ma największą liczbę poprawnych klasyfikacji tzn $c_i \cap t_i$ . To jest, gdy The $max$ pochodzi z równania.

Aby obliczyć czystość, najpierw utwórz macierz nieporozumień. Można tego dokonać, zapętlając poszczególne klastry $c_i$ licząc, ile obiektów zostało sklasyfikowanych jako każda klasa $t_i$ .

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

$c_i$

Purity = (53 + 60 + 16) / 140 = 0.92142

Snives
źródło

czy możesz również odpowiedzieć na entropię?

MonsterMMORPG

tutaj moje pytanie: stackoverflow.com/questions/35709562/…

MonsterMMORPG

t_{j}

$t_j$

m a x_{j}

$max_{j}$