AIC i statystyka c próbują odpowiedzieć na różne pytania. (W ostatnich latach poruszono także pewne problemy ze statystyką c, ale przejdę do tego na bok)
Z grubsza mówiąc:
- AIC mówi ci, jak dobrze twój model pasuje do określonego kosztu błędnej klasyfikacji.
- AUC mówi ci, jak dobry byłby Twój model średnio przy wszystkich kosztach błędnej klasyfikacji.
Kiedy obliczasz AIC, traktujesz swoją logistykę, podając prognozę powiedzmy 0,9 jako prognozę 1 (tj. Bardziej prawdopodobne 1 niż 0), jednak nie musi tak być. Możesz wziąć swój wynik logistyczny i powiedzieć „cokolwiek powyżej 0,95 to 1, wszystko poniżej to 0”. Dlaczego miałbyś to zrobić? Zapewniłoby to, że możesz przewidzieć tylko jeden, gdy jesteś naprawdę pewny siebie. Twój współczynnik fałszywie dodatnich będzie naprawdę bardzo niski, ale twój fałszywy ujemny będzie gwałtowny. W niektórych sytuacjach nie jest to złe - jeśli masz zamiar oskarżyć kogoś o oszustwo, prawdopodobnie najpierw naprawdę chcesz być naprawdę pewien. Ponadto, jeśli śledzenie pozytywnych wyników jest bardzo drogie, nie chcesz ich zbyt wielu.
Dlatego dotyczy kosztów. Koszt jest klasyfikowany jako 1 jako 0, a koszt klasyfikowany jako 0. Zazwyczaj (zakładając, że użyto domyślnej konfiguracji) AIC dla regresji logistycznej odnosi się do szczególnego przypadku, gdy obie błędne klasyfikacje są jednakowe kosztowny. Oznacza to, że regresja logistyczna zapewnia najlepszą ogólną liczbę poprawnych prognoz, bez preferencji dla wartości dodatnich lub ujemnych.
Wykorzystywana jest krzywa ROC, ponieważ wykreśla ona wartość rzeczywistą dodatnią względem wartości fałszywie dodatniej, aby pokazać, jak działałby klasyfikator, gdyby zastosował ją przy różnych kosztach. Statystyka c powstaje, ponieważ każda krzywa ROC, która leży dokładnie nad inną, jest wyraźnie dominującym klasyfikatorem. Dlatego intuicyjny jest pomiar obszaru pod krzywą jako miara tego, jak dobry jest ogólnie klasyfikator.
Zasadniczo, jeśli znasz swoje koszty przy montażu modelu, użyj AIC (lub podobnego). Jeśli dopiero konstruujesz wynik, ale nie określasz progu diagnostycznego, potrzebne są podejścia AUC (z następującym zastrzeżeniem dotyczącym samego AUC).
Więc co jest nie tak z c-statystyka / AUC / Gini?
Przez wiele lat AUC było standardowym podejściem i jest nadal szeroko stosowane, jednak istnieje z tym wiele problemów. Jedną z rzeczy, która sprawiła, że była szczególnie atrakcyjna, było to, że odpowiada testowi Wilcoxa w szeregach klasyfikacji. Oznacza to, że mierzy się prawdopodobieństwo, że wynik losowo wybranego członka jednej klasy będzie wyższy niż losowo wybrany członek innej klasy. Problem polega na tym, że prawie nigdy nie jest to użyteczna miara.
Najważniejsze problemy z AUC zostały opublikowane przez Davida Handa kilka lat temu. (Patrz odnośniki poniżej) Istotą problemu jest to, że podczas gdy AUC osiąga średnią wszystkich kosztów, ponieważ oś X krzywej ROC to Fałszywy wskaźnik dodatni, waga przypisywana różnym systemom kosztów różni się między klasyfikatorami. Jeśli więc obliczysz AUC dla dwóch różnych regresji logicznych, nie będzie to oznaczało „tego samego” w obu przypadkach. Oznacza to, że porównywanie modeli opartych na AUC nie ma sensu.
Hand zaproponował alternatywne obliczenia przy użyciu stałej wagi kosztów i nazwał to miarą H - w pakiecie o nazwie R hmeasure
wykona się to obliczenie i uważam, że AUC do porównania.
Niektóre odniesienia do problemów z AUC:
Kiedy obszar pod krzywą charakterystyczną pracy odbiornika jest odpowiednią miarą wydajności klasyfikatora? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Uważam, że jest to szczególnie dostępne i przydatne wyjaśnienie)
Cytowany papier ręczny nie ma podstaw do rzeczywistego zastosowania w diagnostyce klinicznej. Ma teoretyczną krzywą z 0,5 AUC, co jest idealnym klasyfikatorem. Używa jednego zestawu danych rzeczywistych, w których modele byłyby wyrzucane z ręki, ponieważ są one tak złe, a przy uwzględnianiu przedziałów ufności wokół pomiarów (danych nie dostarczono, ale wywnioskowano) prawdopodobnie będą one losowe . Biorąc pod uwagę brak rzeczywistych danych (lub nawet wiarygodnej symulacji), jest to wydrążony papier. Osobiście brałem udział w analizie tysięcy klasyfikatorów wśród tysięcy pacjentów (z wystarczającymi stopniami swobody). W tym kontekście jego argumenty są pozbawione sensu.
Jest również podatny na superlatywy (niezbyt dobry znak w żadnym kontekście) i dokonuje nieobsługiwanych uogólnień, np. Koszty nie mogą być znane. W medycynie akceptowane są koszty, takie jak 10% dodatnia wartość predykcyjna testów przesiewowych i 100 000 USD na rok życia skorygowany o jakość interwencji terapeutycznych. Trudno mi uwierzyć, że w ocenie kredytowej koszty nie są dobrze rozumiane. Jeśli mówi (niejasno), że różne indywidualne fałszywie dodatnie i fałszywe negatywy niosą różne koszty, chociaż jest to bardzo interesujący temat, nie przypomina binarne klasyfikatory.
Jeśli chodzi o to, że kształt ROC ma znaczenie, to dla zaawansowanych użytkowników jest to oczywiste, a niewyszukani użytkownicy mają o wiele więcej powodów do zmartwień, np. Włączenie rozpowszechnienia do pozytywnych i negatywnych wartości predykcyjnych.
Wreszcie nie potrafię zrozumieć, w jaki sposób nie można oceniać różnych klasyfikatorów na podstawie różnych rzeczywistych granic, określonych przez kliniczne (lub finansowe) zastosowanie modeli. Oczywiście dla każdego modelu zostaną wybrane różne wartości odcięcia. Modele nie byłyby porównywane wyłącznie na podstawie AUC. Klasyfikatory nie mają znaczenia, ale kształt krzywej ma znaczenie.
źródło
Dla mnie najważniejsze jest to, że chociaż statystyka C (AUC) może być problematyczna podczas porównywania modeli z różnymi zmiennymi niezależnymi (analogicznie do tego, co Hand nazywa „klasyfikatorami”), jest nadal przydatna w innych aplikacjach. Na przykład badania walidacyjne, w których ten sam model jest porównywany w różnych populacjach badań (zestawy danych). Jeżeli okaże się, że model lub wskaźnik ryzyka / wynik są wysoce dyskryminujące w jednej populacji, ale nie w innych, może to oznaczać, że ogólnie nie jest to bardzo dobre narzędzie, ale może występować w określonych przypadkach.
źródło