Czy AUC prawdopodobieństwo prawidłowej klasyfikacji losowo wybranej instancji z każdej klasy?

11

Przeczytałem ten podpis w gazecie i nigdy nie widziałem AUC opisanego w ten sposób nigdzie indziej. Czy to prawda? Czy istnieje dowód lub prosty sposób, aby to zobaczyć?

Ryc. 2 pokazuje dokładność predykcji zmiennych dychotomicznych wyrażonych jako obszar pod krzywą charakterystyczną dla działania odbiornika (AUC), co jest równoważne prawdopodobieństwu prawidłowej klasyfikacji dwóch losowo wybranych użytkowników po jednej z każdej klasy (np. Męskiej i żeńskiej ).

Wydaje mi się, że to nie może być prawda, ponieważ dla AUC = 0,5 powyższe sugeruje, że istnieje 50% prawdopodobieństwo prawidłowego przewidywania rzutu monetą dwa razy z rzędu, ale w rzeczywistości masz tylko 25% szansy prawidłowego przewidywania dwóch rzutów monetą z rzędu. Przynajmniej tak myślę o tym stwierdzeniu.

thecity2
źródło
1
Rozumiem, że koncepcja wyrażona w tytule i tak nie jest całkiem właściwa, ale czy pasując do cytatu, czy nie powinna ona oznaczać „prawdopodobieństwa prawidłowej klasyfikacji ...”, a nie tylko „prawdopodobieństwa klasyfikacji”? Zdezorientowało mnie to po raz pierwszy.
Silverfish,
1
To był już wystarczająco długi tytuł! Właściwie zastanawiałem się nad dodaniem „poprawnie”, uwierz lub nie. :)
thecity2

Odpowiedzi:

14

Cytat jest nieco niepoprawny. Prawidłowe stwierdzenie jest takie, że AUC ROC jest prawdopodobieństwem, że losowo wybrany pozytywny przykład znajduje się wyżej w rankingu niż losowo wybrany negatywny przykład. Wynika to z zależności między RUC AUC i testem rang Wilcoxona.

Dyskusję znajdziesz w Tomie Fawcett „ Wprowadzenie do analizy ROC ”.

Sycorax mówi Przywróć Monikę
źródło
8

Opis autora nie jest do końca dokładny. Obszar pod krzywą ROC jest w rzeczywistości równy prawdopodobieństwu, że losowo wybrany pozytywny przykład ma wyższy wynik ryzyka niż losowo wybrany negatywny przykład. Nie musi to mieć nic wspólnego z klasyfikacją, to tylko miara separacji między rozkładami wyników.

Na przykład, wyobraź sobie, że masz dwie monety i każda z nich ma przypisany wynik. Następnie przerzucasz obie monety, dopóki jedna nie pojawi się na głowie, a druga reszka (ponieważ uzależniamy się od różnych wyników). Jest to równoważne z posiadaniem modelu, który losowo ocenia, a prawdopodobieństwo, że wyłoniona moneta ma wyższy (lub niższy) wynik, wynosi 1/2.

dsaxton
źródło
2

Opis, który przeczytałeś, jest poprawny, ale nie podoba mi się jego sformułowanie. Obszar pod krzywą ROC (AUC) to prawdopodobieństwo prawidłowej klasyfikacji losowej pary osobników do klasy 1 z klasy 2. Jest to statystyka oparta na rangach, więc jeśli trzeba zgadywać, czy jedna osoba w parze ma wyższą pozycję niż drugi, to tylko 50% szansy na zgadywanie losowe. AUC jest identyczne [1] ze statystyką testową rang Wilcoxona i można to zilustrować jego znaczenie.

[1]: Mason i Graham (2002). Obszary poniżej krzywych względnych charakterystyk operacyjnych (ROC) i względnych poziomów operacyjnych (ROL): Istotność statystyczna i interpretacja. Quarterly Journal of Royal Meteorological Society. 128: 2145–2166.

prince_of_pears
źródło
1

Jak zauważyli inni, AUC wyraża prawdopodobieństwo, że losowo wybrany przykład z klasy dodatniej otrzyma od klasyfikatora wyższy wynik niż losowo wybrany przykład z klasy ujemnej.

Aby uzyskać dowód tej właściwości, zobacz: Jak wyprowadzić wzór matematyczny dla AUC?

Lub źródło zastosowane dla tej odpowiedzi: D. Hand, 2009, Pomiar wydajności klasyfikatora: spójna alternatywa dla obszaru pod krzywą ROC

alebu
źródło