Jak interpretować krzywą ROC?

14

Zastosowałem regresję logistyczną do moich danych na SAS i oto krzywa ROC i tabela klasyfikacji.

wprowadź opis zdjęcia tutaj

Czuję się dobrze z liczbami w tabeli klasyfikacji, ale nie jestem pewien, co pokazuje krzywa ROC i obszar pod nią. Wszelkie wyjaśnienia byłyby bardzo mile widziane.

Günal
źródło

Odpowiedzi:

22

Kiedy wykonujesz regresję logistyczną, dostajesz dwie klasy zakodowane jako i . Teraz obliczysz prawdopodobieństwa, że ​​z pewnymi wariacjami wyjaśniającymi jednostka należy do klasy oznaczonej jako . Jeśli teraz wybierzesz próg prawdopodobieństwa i sklasyfikujesz wszystkie osoby o prawdopodobieństwie większym niż ten próg jako klasę i poniżej jako10110, w większości przypadków popełnisz pewne błędy, ponieważ zwykle nie można idealnie rozróżnić dwóch grup. Dla tego progu możesz teraz obliczyć swoje błędy oraz tak zwaną czułość i swoistość. Jeśli zrobisz to dla wielu progów, możesz zbudować krzywą ROC, wykreślając czułość względem 1-Specyficzności dla wielu możliwych progów. Obszar pod krzywą wchodzi w grę, jeśli chcesz porównać różne metody, które próbują rozróżnić dwie klasy, np. Analizę dyskryminacyjną lub model probitowy. Możesz zbudować krzywą ROC dla wszystkich tych modeli, a ten z najwyższym obszarem pod krzywą można uznać za najlepszy model.

Jeśli potrzebujesz głębszego zrozumienia, możesz również przeczytać odpowiedź na inne pytanie dotyczące krzywych ROC, klikając tutaj.

losowa osoba
źródło
W jaki sposób obszar pod krzywą ROC różni się od prawidłowego wskaźnika w tabeli klasyfikacji?
Günal
2
Tabela pokazuje tylko poprawne i niepoprawne dla jednego progu. Jednak krzywa AUROC jest miarą pełnej metody klasyfikacji oraz poprawnej i niepoprawnej dla wielu różnych wartości progowych.
random_guy
Miło to słyszeć!
random_guy
6

AUC po prostu mówi ci, jak często losowe losowanie z przewidywanych prawdopodobieństw odpowiedzi na danych oznaczonych 1 będzie większe niż losowe losowanie z przewidywanych prawdopodobieństw odpowiedzi na danych oznaczonych 0.

jlemaitre
źródło
6

Model regresji logistycznej jest metodą bezpośredniego oszacowania prawdopodobieństwa. Klasyfikacja nie powinna odgrywać żadnej roli w jej stosowaniu. Każda klasyfikacja nieoparta na ocenie narzędzi (funkcja straty / kosztu) w odniesieniu do poszczególnych przedmiotów jest nieodpowiednia, z wyjątkiem bardzo szczególnych sytuacji awaryjnych. Krzywa ROC nie jest tu pomocna; nie są też czułością ani swoistością, które, podobnie jak ogólna dokładność klasyfikacji, są niewłaściwymi regułami punktacji dokładności, zoptymalizowanymi przez fałszywy model nieprzystosowany do oszacowania maksymalnego prawdopodobieństwa.

Zauważ, że osiągasz wysoką dyskryminację predykcyjną (wysoki wskaźnik (obszar ROC)) poprzez nadmiar danych. Potrzebujesz być może co najmniej obserwacji w najrzadziej kategorii , gdzie jest liczbą branych pod uwagę predyktorów kandydujących , aby uzyskać model, który nie jest znacząco przeładowany [tj. Model, który prawdopodobnie będzie działał na nowych danych mniej więcej tak samo, jak działało na danych szkoleniowych]. Aby oszacować punkt przecięcia, potrzebujesz co najmniej 96 obserwacji, aby przewidywane ryzyko miało margines błędu z ufnością 0,95.15 p Y p 0,05c15pYp0.05

Frank Harrell
źródło
@Frank Harrell: Czy mógłbyś rozwinąć obliczenia dotyczące przechwytywania, a także komentarz dotyczący marginesu błędu. Dzięki!
lipiec
@FrankHarrell, czy Twoja rada, że ​​potrzebujemy co najmniej 15p obserwacji ma zastosowanie, jeśli skończymy regresją kalenicy w celu skalibrowania modelu? Rozumiem, że zastępujemy p przez efektywną wymiarowość.
Lepidopterist
Poprawne, a powiedziałbym, że używasz penalizacja takich jak kwadratowej (kalenicy) kary do oszacowania parametrów, co prowadzi do lepszej kalibracji
Frank Harrell