Mam problem z klasyfikacją binarną i eksperymentuję z różnymi klasyfikatorami: chcę porównać klasyfikatory. który jest lepszym miernikiem AUC lub dokładnością? I dlaczego?
Raondom Forest: AUC: 0.828 Accuracy: 79.6667 %
SVM: AUC: 0.542 Accuracy: 85.6667 %
Myślę, że zdecydowanie powinieneś przyjrzeć się więcej metryk niż tylko AUC i dokładności.
Dokładność (wraz z czułością i swoistością) jest bardzo prostą, ale tendencyjną miarą, która zmusza cię do spojrzenia na wynik absolutnego przewidywania i nie otwiera się na potwierdzenie prawdopodobieństwa klasy lub rankingu. Nie bierze również pod uwagę populacji, która zachęca do błędnej interpretacji, ponieważ model dający 95% dokładność populacji z 95% szansą na poprawność losową nie jest tak naprawdę dobrym modelem, nawet jeśli dokładność jest wysoka.
AUC jest dobrą miarą dla zapewnienia dokładności modelu, która jest niezależna od prawdopodobieństw klasy populacji. Nie powie ci jednak nic o tym, jak dobre są faktycznie szacunki prawdopodobieństwa. Możesz uzyskać wysoki AUC, ale nadal masz bardzo zniekształcone szacunki prawdopodobieństwa. Ta miara jest bardziej dyskryminująca niż dokładność i na pewno da ci lepsze modele, gdy zostanie użyta w połączeniu z pewną właściwą zasadą punktacji, np. Ocena Briera, jak wspomniano w innym poście.
Możesz uzyskać bardziej formalny dowód tutaj, chociaż ten dokument jest dość teoretyczny: AUC: statystycznie spójna i bardziej dyskryminująca miara niż dokładność
Dostępnych jest jednak kilka dobrych wskaźników. Funkcje strat dla szacowania prawdopodobieństwa i klasyfikacji binarnej klasy: Struktura i zastosowania to dobry dokument sprawdzający właściwe reguły punktacji, takie jak wynik Briera.
Kolejnym interesującym dokumentem z miernikami potwierdzającymi skuteczność modelu jest Ocena: od precyzji, przywołania i miary F do ROC, poinformowanie, znaczność i korelacja uwzględniające inne dobre wskaźniki wydajności, takie jak poinformowanie.
Podsumowując, zaleciłbym przyjrzenie się wartości AUC / Gini i Briera w celu potwierdzenia wydajności modelu, ale w zależności od celu z twoim modelem inne wskaźniki mogą lepiej pasować do twojego problemu.
źródło