Dany
- zestaw danych z instancjami razem z klasami, w których każda instancja należy dokładnie do jednej klasy
- klasyfikator wieloklasowy
Po treningu i testowaniu w zasadzie mam tabelę z prawdziwą klasą i przewidywaną klasą dla każdej instancji w zestawie testowym. Tak więc za każdym razem mam dopasowanie ( ) lub miss ( y_i \ neq a_i ).
Jak mogę ocenić jakość dopasowania? Problem polega na tym, że niektóre klasy mogą mieć wielu członków, tzn. Należy do nich wiele instancji. Oczywiście, jeśli 50% wszystkich punktów danych należy do jednej klasy, a mój ostateczny klasyfikator jest ogólnie w 50% poprawny, nic nie zyskałem. Równie dobrze mógłbym stworzyć trywialny klasyfikator, który generuje największą klasę bez względu na wejście.
Czy istnieje standardowa metoda oceny jakości klasyfikatora na podstawie znanego zestawu wyników testów dopasowań i trafień dla każdej klasy? Może nawet ważne jest rozróżnienie wskaźników dopasowania dla poszczególnych klas?
Najprostsze podejście, jakie mogę wymyślić, to wykluczenie prawidłowych dopasowań największej klasy. Co jeszcze?
Odpowiedzi:
Podobnie jak w przypadku klasyfikacji binarnej, można użyć empirycznego poziomu błędu do oszacowania jakości klasyfikatora. Niech być klasyfikatorów oraz x I i y i być odpowiednio przykład w bazie danych i klasy. e r r ( g ) = 1g xi yi
Jak powiedzieliście, gdy klasy są niezrównoważone, linia bazowa nie wynosi 50%, ale odsetek większej klasy. Możesz dodać wagę do każdej klasy, aby zrównoważyć błąd. NiechWYjest ciężar klasyy. Ustaw ciężary tak, aby1
Jak powiedział Steffen, macierz nieporozumień może być dobrym sposobem na oszacowanie jakości klasyfikatora. W przypadku binarnym można uzyskać pewną miarę z tej macierzy, na przykład czułość i swoistość, szacując zdolność klasyfikatora do wykrywania konkretnej klasy. Źródłem błędu klasyfikatora może być szczególny sposób. Na przykład klasyfikator może być zbyt pewny siebie podczas przewidywania 1, ale nigdy nie powiedzieć źle, przewidując zero. Wiele klasyfikatorów można sparametryzować w celu kontroli tego współczynnika (fałszywie dodatnie vs fałszywie ujemne), a następnie jesteś zainteresowany jakością cała rodzina klasyfikatorów, nie tylko jedna. Na tej podstawie możesz wykreślić krzywą ROC , a pomiar obszaru pod krzywą ROC daje jakość tych klasyfikatorów.
Krzywe ROC można rozszerzyć dla problemu wieloklasowego. Sugeruję przeczytanie odpowiedzi w tym wątku .
źródło
Do oceny wielostronnych systemów klasyfikacji tekstu używam mikro- i makro-uśrednionego F1 (miara F). Miara F jest zasadniczo ważoną kombinacją precyzji i przypomnijmy to sobie. W przypadku klasyfikacji binarnej podejścia mikro i makro są takie same, ale w przypadku wielu sposobów myślę, że mogą ci pomóc. Możesz myśleć o Micro F1 jako ważonej kombinacji precyzji i przywołania, która daje taką samą wagę każdemu dokumentowi, podczas gdy Macro F1 daje taką samą wagę każdej klasie. Dla każdego równanie miary F jest takie samo, ale obliczasz precyzję i przywołujesz inaczej:
źródło
źródło