Dlaczego AUC = 1 nawet klasyfikator błędnie zaklasyfikował połowę próbek?

20

Używam klasyfikatora, który zwraca prawdopodobieństwa. Aby obliczyć AUC, używam pakietu pROC R. Prawdopodobieństwa wyjściowe z klasyfikatora są następujące:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probspokazuje prawdopodobieństwo zaliczenia do klasy „1”. Jak pokazano, klasyfikator sklasyfikował wszystkie próbki w klasie „1”.

Prawdziwy wektor etykiety to:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

Jak pokazano, klasyfikator błędnie sklasyfikował 5 próbek. Ale AUC to:

pROC::auc(truel, probs)
Area under the curve: 1

Czy możesz mi wyjaśnić, dlaczego tak się dzieje?

użytkownik4704857
źródło
Powiązane pytanie: stats.stackexchange.com/questions/97395
Juho Kokkala

Odpowiedzi:

21

AUC jest miarą zdolności do uszeregowania przykładów według prawdopodobieństwa przynależności do klasy. Tak więc, jeśli wszystkie prawdopodobieństwa są powyżej 0,5, nadal możesz mieć AUC równe jeden, jeśli wszystkie pozytywne wzorce mają wyższe prawdopodobieństwa niż wszystkie negatywne wzorce. W takim przypadku próg decyzyjny będzie wyższy niż 0,5, co dałoby poziom błędu równy zero. Zauważ, że ponieważ AUC mierzy tylko ranking prawdopodobieństw, nie mówi ci, czy prawdopodobieństwa są dobrze skalibrowane (np. Nie ma systematycznego odchylenia), jeśli kalibracja prawdopodobieństw jest ważna, spójrz na metrykę entropii krzyżowej.

Dikran Torbacz
źródło
21

Pozostałe odpowiedzi wyjaśniają, co się dzieje, ale myślałem, że zdjęcie może być ładne.

Widać, że klasy są doskonale rozdzielone, więc AUC wynosi 1, ale próg na poziomie 1/2 spowoduje 50% błąd w klasyfikacji.

probs

jld
źródło
21

Próbki wcale nie zostały „błędnie sklasyfikowane”. Te 0przykłady są uszeregowane ściśle niższe niż 1przykładach. AUROC robi dokładnie to, co zostało określone, czyli mierzy prawdopodobieństwo, że losowo wybrane 1miejsce będzie wyżej w rankingu niż losowo wybrane 0. W tym przykładzie jest to zawsze prawda, więc jest to prawdopodobieństwo 1 zdarzenia.

Tom Fawcett ma świetny artykuł z wystawy o krzywych ROC. Proponuję zacząć od tego.

Tom Fawcett. „Wprowadzenie do analizy ROC”. Listy rozpoznające wzór. 2005.

Sycorax mówi Przywróć Monikę
źródło
3
+1 Artykuł Fawcett jest naprawdę bardzo dobrym miejscem do rozpoczęcia.
Dikran Marsupial