Ocena klasyfikatorów: krzywe uczenia się vs krzywe ROC

11

Chciałbym porównać 2 różne klasyfikatory dla problemu klasyfikacji tekstów wieloklasowych, które wykorzystują duże zestawy danych szkoleniowych. Wątpię, czy powinienem użyć krzywych ROC, czy krzywych uczenia się, aby porównać 2 klasyfikatory.

Z jednej strony krzywe uczenia się są przydatne do decydowania o wielkości zbioru danych szkoleniowych, ponieważ można znaleźć rozmiar zbioru danych, w którym klasyfikator przestaje się uczyć (a może degraduje). Zatem najlepszym klasyfikatorem w tym przypadku może być ten, który osiąga najwyższą dokładność przy najmniejszym rozmiarze zestawu danych.

Z drugiej strony krzywe ROC pozwalają znaleźć punkt z właściwym kompromisem między czułością / swoistością. Najlepszy klasyfikator w tym przypadku to ten, który jest bliżej lewej górnej części, z najwyższym TPR dla dowolnego FPR.

Czy powinienem stosować obie metody oceny? Czy jest możliwe, że metoda o lepszej krzywej uczenia się ma gorszą krzywą ROC i odwrotnie?

kanzen_master
źródło
Czy masz przykład klasyfikatora, w którym wydajność spada, gdy zestaw treningowy staje się większy?
mogron

Odpowiedzi:

11

Krzywa uczenia się jest jedynie narzędziem diagnozującym, informującym o tym, jak szybko uczy się Twój model i czy cała analiza nie utknęła w dziwnym obszarze zbyt małych zestawów / zbyt małych zbiorów (jeśli dotyczy). Jedyną częścią tego wykresu, która jest interesująca dla oceny modelu, jest jego koniec, tj. Ostateczna wydajność - ale nie trzeba zgłaszać wykresu.
Wybór modelu na podstawie krzywej uczenia się naszkicowany w pytaniu jest raczej kiepskim pomysłem, ponieważ prawdopodobnie wybierzesz model, który najlepiej pasuje do zbyt małej próby.

O ROC ... Krzywa ROC to metoda oceny modeli binarnych, które dają wynik pewności, że obiekt należy do jednej klasy; być może również w celu znalezienia najlepszych progów do przekształcenia ich w rzeczywiste klasyfikatory.
To, co opisujesz, jest raczej pomysłem do wykreślenia wydajności klasyfikatorów jako wykresu rozrzutu TPR / FPR w przestrzeni ROC i skorzystaj z kryterium najbliższego lewego górnego rogu, aby wybrać to, które najlepiej jest zrównoważone między generowaniem fałszywych alarmów i nieudanych prób - - ten konkretny cel można osiągnąć bardziej elegancko, po prostu wybierając model z najlepszym wynikiem F (harmoniczna średnia precyzji i przywołania).


źródło