Trochę się mylę co do pola pod krzywą (AUC) ROC i ogólnej dokładności.
Czy AUC będzie proporcjonalne do ogólnej dokładności? Innymi słowy, kiedy będziemy mieli większą ogólną dokładność, czy na pewno uzyskamy większy AUC? Czy są z definicji dodatnio skorelowane?
Jeśli są pozytywnie skorelowane, dlaczego zawracamy sobie głowę zgłaszaniem ich obu w niektórych publikacjach?
W rzeczywistości wykonałem pewne zadanie klasyfikacji i otrzymałem wyniki w następujący sposób: klasyfikator A uzyskał dokładność 85% i AUC 0,98, a klasyfikator B uzyskał dokładność 93% i AUC 0,92. Pytanie brzmi, który klasyfikator jest lepszy? Czy też możliwe jest uzyskanie podobnych wyników (mam na myśli błąd w mojej implementacji)?
classification
roc
Samo Jerom
źródło
źródło
Odpowiedzi:
AUC (na podstawie ROC) i ogólna dokładność nie wydają się tą samą koncepcją.
Ogólna dokładność oparta jest na jednym konkretnym punkcie odcięcia, podczas gdy ROC wypróbowuje cały punkt odcięcia i wykreśla czułość i swoistość. Kiedy porównujemy ogólną dokładność, porównujemy dokładność na podstawie pewnego punktu odcięcia. Ogólna dokładność różni się w zależności od punktu odcięcia.
źródło
Chociaż dwie miary statystyczne są prawdopodobnie skorelowane, mierzą różne cechy klasyfikatora.
AUROC
Pole pod krzywą (AUC) jest równe prawdopodobieństwu, że klasyfikator uszereguje losowo wybrany pozytywny przypadek wyżej niż losowo wybrany negatywny przykład. Mierzy umiejętność klasyfikatorów w szeregowaniu zestawu wzorców według stopnia, w jakim należą one do klasy dodatniej, ale bez faktycznego przypisywania wzorców do klas.
Ogólna dokładność zależy również od zdolności klasyfikatora do uszeregowania wzorców, ale także od jego zdolności do wybrania progu w rankingu stosowanego do przypisania wzorców do klasy dodatniej, jeśli jest powyżej progu, i do klasy ujemnej, jeśli poniżej.
Zatem klasyfikator z wyższą statystyką AUROC (wszystkie rzeczy są równe) może również mieć wyższą ogólną dokładność, ponieważ ranking wzorców (który mierzy AUROC) jest korzystny zarówno dla AUROC, jak i ogólnej dokładności. Jeśli jednak jeden klasyfikator szereguje wzorce dobrze, ale źle wybiera próg, może mieć wysoką wartość AUROC, ale słabą ogólną dokładność.
Praktyczne użycie
W praktyce lubię zbierać ogólną dokładność, AUROC i jeśli klasyfikator ocenia prawdopodobieństwo członkostwa w klasie, entropię krzyżową lub informacje predykcyjne. Następnie mam metrykę, która mierzy jego surową zdolność do przeprowadzenia twardej klasyfikacji (zakładając, że fałszywie dodatnie i fałszywie ujemne koszty błędnej klasyfikacji są równe, a częstotliwości klasowe w próbce są takie same jak w użyciu operacyjnym - duże założenie!), metryka mierząca zdolność rangowania wzorców oraz metryka mierząca, jak dobrze skalibrowany jest ranking jako prawdopodobieństwo.
W przypadku wielu zadań koszty błędnej klasyfikacji operacyjnej są nieznane lub zmienne, lub częstotliwości klas operacyjnych są inne niż w próbie szkoleniowej lub są zmienne. W takim przypadku ogólna dokładność jest często dość nieistotna, a AUROC jest lepszym wskaźnikiem wydajności i idealnie chcemy klasyfikatora, który generuje dobrze skalibrowane prawdopodobieństwa, abyśmy mogli zrekompensować te problemy w użyciu operacyjnym. Zasadniczo, która metryka jest ważna, zależy od problemu, który próbujemy rozwiązać.
źródło
Czy AUC jest naprawdę bardzo przydatną miarą?
Powiedziałbym, że oczekiwany koszt jest bardziej odpowiednim środkiem.
Wtedy miałbyś koszt A dla wszystkich fałszywych pozytywów i koszt B dla wszystkich fałszywych negatywów. Może łatwo być, że inna klasa jest względnie droższa niż inna. Oczywiście, jeśli masz koszty fałszywej klasyfikacji w różnych podgrupach, byłoby to jeszcze bardziej wydajne.
Wykreślając punkt odcięcia na osi X i oczekiwany koszt na osi Y, można zobaczyć, który punkt odcięcia minimalizuje oczekiwany koszt.
Formalnie masz Stratę w funkcji straty (odcięcie | danych, koszt), którą próbujesz zminimalizować.
źródło
Podobnie jak wszystkie odpowiedzi zostały opublikowane:
ROC
iaccuracy
są fundamentalne dwie różne koncepcje.Ogólnie rzecz biorąc,
ROC
opisuje moc dyskryminacyjną klasyfikatora niezależną od rozkładu klas i nierówne koszty błędów prognozowania (koszt fałszywie dodatni i fałszywie ujemny).Metryka podobna
accuracy
jest obliczana na podstawie rozkładu klastest dataset
lubcross-validation
, ale współczynnik ten może się zmienić, gdy zastosujesz klasyfikator do rzeczywistych danych, ponieważ podstawowy rozkład klas został zmieniony lub nieznany. Z drugiej strony,TP rate
iFP rate
które są wykorzystywane do konstruowaniaAUC
nie będą mieć wpływu przesunięcia dystrybucyjnej klasy.źródło