Krzywe ROC dla niezrównoważonych zestawów danych

10

Rozważ macierz wejściową i wyjście binarne .Xy

Częstym sposobem pomiaru wydajności klasyfikatora jest użycie krzywych ROC.

Na wykresie ROC przekątna jest wynikiem, który można uzyskać z losowego klasyfikatora. W przypadku niezrównoważonego wyjścia wydajność losowego klasyfikatora można poprawić, wybierając lub z różnymi prawdopodobieństwami.y01

Jak wydajność takiego klasyfikatora można przedstawić na wykresie krzywej ROC? Przypuszczam, że powinna to być linia prosta o innym kącie, a nie przekątna?

Przykład krzywej ROC

Donbeo
źródło
2
Zamiast tego możesz wypróbować krzywą dokładnego przywołania: „Wykres przywołania precyzyjnego jest bardziej pouczający niż wykres ROC podczas oceny klasyfikatorów binarnych w niezrównoważonych zestawach danych”, ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , prawdopodobnie więcej dostępna strona internetowa stworzona przez autorów artykułu, classeval.wordpress.com/simulation-analysis/…
zyxue

Odpowiedzi:

16

Krzywe ROC są niewrażliwe na równowagę klas. Linia prosta, którą otrzymujesz dla losowego klasyfikatora, jest już wynikiem użycia różnych prawdopodobieństw uzyskania dodatniej wartości (0 prowadzi do (0, 0), a 1 prowadzi do (1, 1) z dowolnym zakresem między nimi).

Nic nie zmienia się w niezrównoważonym otoczeniu.

Marc Claesen
źródło
1
Uważam, że warto rozważyć znaczenie obszaru pod krzywą, aby zobaczyć, dlaczego przekątna się nie zmienia. AUC można interpretować jako prawdopodobieństwo, że losowo wybrany pozytywny przykład będzie miał wyższy wynik niż losowo wybrany negatywny przykład. 1 . To wyjaśnia mi, dlaczego nierównowaga klasowa nie jest problemem.
JBecker,