Zwłaszcza w informatycznej literaturze dotyczącej uczenia maszynowego AUC (obszar pod krzywą charakterystyczną operatora odbiornika) jest popularnym kryterium oceny klasyfikatorów. Jakie są uzasadnienia korzystania z AUC? Np. Czy istnieje konkretna funkcja straty, dla której optymalną decyzją jest klasyfikator o najlepszym AUC?
machine-learning
roc
charles.y.zheng
źródło
źródło
Odpowiedzi:
źródło
Weźmy prosty przykład identyfikowania dobrego pomidora z puli dobrych + złych pomidorów. Powiedzmy, że liczba dobrych pomidorów to 100, a zły pomidor to 1000, czyli w sumie 1100. Teraz Twoim zadaniem jest zidentyfikowanie jak największej liczby dobrych pomidorów. Jednym ze sposobów na uzyskanie dobrego pomidora jest przyjęcie 1100 pomidorów. Ale wyraźnie mówi, że nie jesteś w stanie odróżnić b / n dobra od zła .
Tak więc, jaki jest właściwy sposób różnicowania - potrzeba zebrania tylu dobrych, gdy zbiera się bardzo niewiele złych , więc potrzebujemy czegoś, co może powiedzieć, ile dobrych wybraliśmy, a także powiedzieć, co liczą złe to. Miara AUC daje większą wagę, jeśli jest w stanie wybrać więcej dobrych z kilkoma złymi, jak pokazano poniżej. co mówi, jak dobrze potrafisz rozróżnić b / n dobre i złe.
W przykładzie można zauważyć, że podczas zbierania 70% dobrych pomidorów czarna krzywa zebrała około 48% złych (nieczystości), ale niebieska ma 83% złych (nieczystość). Czarna krzywa ma więc lepszy wynik AUC w porównaniu do niebieskiej.
źródło