Interpretacja obszaru pod krzywą PR

10

Obecnie porównuję trzy metody i mam metryki Dokładność, auROC i auPR. I mam następujące wyniki:

Metoda A - wg: 0,75, auROC: 0,75, auPR: 0,45

Metoda B - wg: 0,65, auROC: 0,55, auPR: 0,40

Metoda C - acc: 0,55, auROC: 0,70, auPR: 0,65

Dobrze rozumiem dokładność i auROC (aby dobrze zapamiętać, często próbuję wymyślić zdanie takie jak „auROC = charakteryzować umiejętność dobrego przewidywania klasy dodatniej”, choć nie do końca poprawne, pomaga mi to zapamiętać). Nigdy wcześniej nie miałem danych auPR i chociaż rozumiem, w jaki sposób jest zbudowany, nie mogę się z tym pogodzić.

W rzeczywistości nie rozumiem, dlaczego metoda C ma niesamowicie wysoki wynik dla auPR, a jednocześnie jest zła / średnia dla dokładności i auPR.

Gdyby ktoś pomógł mi zrozumieć to trochę lepiej za pomocą prostego wyjaśnienia, które byłoby naprawdę świetne. Dziękuję Ci.

AdrienNK
źródło

Odpowiedzi:

11

Jedna oś krzywych ROC i PR jest taka sama, to znaczy TPR: ile pozytywnych przypadków zostało poprawnie sklasyfikowanych ze wszystkich pozytywnych przypadków w danych.

Druga oś jest inna. ROC używa FPR, czyli liczby błędnie zadeklarowanych pozytywów spośród wszystkich negatywów w danych. Krzywa PR wykorzystuje precyzję: ile prawdziwie pozytywnych wyników spośród wszystkich przewidywanych jako pozytywne. Podstawa drugiej osi jest inna. ROC wykorzystuje to, co jest w danych, PR wykorzystuje jako podstawę prognozę.

Uważa się, że krzywa PR jest bardziej pouczająca, gdy w danych występuje nierównowaga wysokiej klasy, patrz ten artykuł http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

inż
źródło
1
Dla auROC 0,5 jest minimum (ponieważ mniej byłoby lepiej, odwracając przewidywanie). Czy istnieją jakieś podobne zasady dotyczące auPR? Także w odniesieniu do moich pomiarów: co mogę potwierdzić, patrząc na wyniki metody C? Ponieważ pracuję z tym samym zestawem danych w 3 przypadkach i z mojego punktu widzenia dla zestawu danych z mniej więcej równomiernym rozkładem między klasami, nie ma sensu, aby auROC i auPR nie stosowały się do tego samego rankingu dla mojego metody
AdrienNK
1
jaki jest losowy wynik klasyfikatora w auPR? Wiem, że to 0,5 w auROC, ale nie mogę tego wiedzieć w auPR.
Jack Twain
9
Oczekiwany wynik auPR dla losowego klasyfikatora to tylko odsetek prawdziwie pozytywnych przypadków w zbiorze danych. To jest precyzja, jakiej można się spodziewać, jeśli odgadniesz klasę, i uzyskasz tę precyzję na wszystkich poziomach wycofania. Tak więc oczekiwana krzywa PR dla losowego klasyfikatora jest po prostu prostokątem o długości boków „odsetek prawdziwych pozytywów” x 1. Na przykład, jeśli twój zestaw danych zawiera 10% przypadków dodatnich i 90% przypadków ujemnych, oczekiwany auPR przypadkowo wynosi 0,1.
Lizzie Silver,