Jak obliczyć czystość?

16

Jak w analizie skupień obliczamy czystość? Jakie jest równanie?

Nie szukam kodu, który by to dla mnie zrobił.

wprowadź opis zdjęcia tutaj

Niech będzie klastrem k, a c j będzie klasą j.ωkcj

Czy czystość jest właściwie dokładnością? wygląda na to, że sumują liczbę prawdziwie sklasyfikowanych klas na klaster na podstawie wielkości próby.

źródło równania

Pytanie brzmi, jaki jest związek między wyjściem a wejściem?

Jeśli jest naprawdę pozytywny (TP), prawdziwie negatywny (TN), fałszywie pozytywny (FP), fałszywie negatywny (FN). Czy to ?Purity=TPK(TP+TN+FP+FN)

Iancovici
źródło
3
Jeśli potrzebujesz tylko szybkiej definicji: najlepsze wyszukiwarki Google dotyczące czystości klastrów ** tutaj, podając definicję matematyczną. (** przynajmniej dla mnie - Twoje indywidualne wyniki mogą się różnić)
Glen_b
Nie mam pojęcia, co rozumiesz przez „czystość”, ale David Colquhoun używa „czarnego magicznego testu czystości serca” jako przykładu dwumianowego pobierania próbek na s. 111–114 swojego doskonałego podręcznika „Wykłady o biostatystyce” (1971), który jest dostępny jako bezpłatny plik PDF na stronie autora: dcscience.net Nawet jeśli nie ma znaczenia dla twojego pytania, jest to świetna historia.
Michael Lew
W drzewach klasyfikacyjnych niektóre funkcje do pomiaru zanieczyszczenia to: błąd rekonstytucji, indeks gini i entropia. (Drzewa klasyfikacyjne wykonują określoną formę grupowania, więc myślę, że powinno to być istotne.) Mam nadzieję, że to pomoże!
Angelorf

Odpowiedzi:

26

W kontekście analizy skupień czystość stanowi zewnętrzne kryterium oceny jakości skupień. Jest to procent całkowitej liczby obiektów (punktów danych), które zostały poprawnie sklasyfikowane, w zakresie jednostek [0..1].

Purity=1Ni=1kmaxj|citj|

gdzie N = liczba obiektów (punktów danych), k = liczba klastrów, ci jest klastrem w C , zaś tj jest klasyfikacją, która ma maksymalną liczbę dla klastra ci

Kiedy mówimy „poprawnie”, który zakłada, że każdy klaster ci zidentyfikował grupę obiektów jak do tej samej klasy, że prawda grunt został wskazany. Używamy klasyfikacji ziemia prawdy ti tych obiektów jako miara przypisania poprawności, jednak aby to zrobić musimy wiedzieć, które klaster ci mapuje do zaklasyfikowania ziemia prawdy ti . Gdyby był w 100% dokładny, to każde ci odwzorowałoby dokładnie 1 ti , ale w rzeczywistości nasze cizawiera pewne punkty, których podstawowa prawda sklasyfikowała je jako kilka innych klasyfikacji. Naturalnie to możemy zauważyć, że najwyższa jakość klastrów zostaną uzyskane za pomocą ci do ti odwzorowania, która ma największą liczbę poprawnych klasyfikacji tzn citi . To jest, gdy The max pochodzi z równania.

Aby obliczyć czystość, najpierw utwórz macierz nieporozumień. Można tego dokonać, zapętlając poszczególne klastry ci licząc, ile obiektów zostało sklasyfikowanych jako każda klasa ti .

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

ci

Purity = (53 + 60 + 16) / 140 = 0.92142
Snives
źródło
czy możesz również odpowiedzieć na entropię?
MonsterMMORPG
tutaj moje pytanie: stackoverflow.com/questions/35709562/…
MonsterMMORPG
tjotmaxjot