Jaka jest różnica w tym, co AIC i statystyka c (AUC) faktycznie mierzą w celu dopasowania modelu?

29

Akaike Information Criterion (AIC) i c-statystyka (pole pod krzywą ROC) to dwie miary dopasowania modelu do regresji logistycznej. Mam problem z wyjaśnieniem, co się dzieje, gdy wyniki dwóch miar nie są spójne. Wydaje mi się, że mierzą nieco inne aspekty dopasowania modelu, ale jakie są te szczególne aspekty?

Mam 3 modele regresji logistycznych. Model M0 ma kilka standardowych zmiennych towarzyszących. Model M1 dodaje X1 do M0; model M2 dodaje X2 do M0 (więc M1 i M2 nie są zagnieżdżone).

Różnica w AIC od M0 do M1 i M2 wynosi około 15, co wskazuje, że zarówno X1, jak i X2 poprawiają dopasowanie modelu i o mniej więcej taką samą ilość.

c-statystyki wynoszą: M0, 0,70; M1, 0,73; M2 0,72. Różnica w statystyce c od M0 do M1 jest znacząca (metoda DeLonga i in. 1988), ale różnica między M0 a M2 nie jest znacząca, co wskazuje, że X1 poprawia dopasowanie modelu, ale X2 nie.

X1 nie jest gromadzony rutynowo. X2 ma być rutynowo zbierany, ale brakuje go w około 40% przypadków. Chcemy zdecydować, czy rozpocząć zbieranie X1, czy ulepszyć zbieranie X2, czy porzucić obie zmienne.

Z AIC wnioskujemy, że zmienne wprowadzają podobną poprawę do modelu. Prawdopodobnie łatwiej jest poprawić zbieranie X2 niż rozpocząć zbieranie zupełnie nowej zmiennej (X1), więc chcielibyśmy ulepszyć zbieranie X2. Ale ze statystyki c, X1 poprawia model, a X2 nie, więc powinniśmy zapomnieć o X2 i zacząć zbierać X1.

Ponieważ nasze zalecenie zależy od tego, na jakich statystykach się koncentrujemy, musimy jasno zrozumieć różnicę w tym, co mierzą.

Wszelkie porady mile widziane.

timbp
źródło

Odpowiedzi:

25

AIC i statystyka c próbują odpowiedzieć na różne pytania. (W ostatnich latach poruszono także pewne problemy ze statystyką c, ale przejdę do tego na bok)

Z grubsza mówiąc:

  • AIC mówi ci, jak dobrze twój model pasuje do określonego kosztu błędnej klasyfikacji.
  • AUC mówi ci, jak dobry byłby Twój model średnio przy wszystkich kosztach błędnej klasyfikacji.

Kiedy obliczasz AIC, traktujesz swoją logistykę, podając prognozę powiedzmy 0,9 jako prognozę 1 (tj. Bardziej prawdopodobne 1 niż 0), jednak nie musi tak być. Możesz wziąć swój wynik logistyczny i powiedzieć „cokolwiek powyżej 0,95 to 1, wszystko poniżej to 0”. Dlaczego miałbyś to zrobić? Zapewniłoby to, że możesz przewidzieć tylko jeden, gdy jesteś naprawdę pewny siebie. Twój współczynnik fałszywie dodatnich będzie naprawdę bardzo niski, ale twój fałszywy ujemny będzie gwałtowny. W niektórych sytuacjach nie jest to złe - jeśli masz zamiar oskarżyć kogoś o oszustwo, prawdopodobnie najpierw naprawdę chcesz być naprawdę pewien. Ponadto, jeśli śledzenie pozytywnych wyników jest bardzo drogie, nie chcesz ich zbyt wielu.

Dlatego dotyczy kosztów. Koszt jest klasyfikowany jako 1 jako 0, a koszt klasyfikowany jako 0. Zazwyczaj (zakładając, że użyto domyślnej konfiguracji) AIC dla regresji logistycznej odnosi się do szczególnego przypadku, gdy obie błędne klasyfikacje są jednakowe kosztowny. Oznacza to, że regresja logistyczna zapewnia najlepszą ogólną liczbę poprawnych prognoz, bez preferencji dla wartości dodatnich lub ujemnych.

Wykorzystywana jest krzywa ROC, ponieważ wykreśla ona wartość rzeczywistą dodatnią względem wartości fałszywie dodatniej, aby pokazać, jak działałby klasyfikator, gdyby zastosował ją przy różnych kosztach. Statystyka c powstaje, ponieważ każda krzywa ROC, która leży dokładnie nad inną, jest wyraźnie dominującym klasyfikatorem. Dlatego intuicyjny jest pomiar obszaru pod krzywą jako miara tego, jak dobry jest ogólnie klasyfikator.

Zasadniczo, jeśli znasz swoje koszty przy montażu modelu, użyj AIC (lub podobnego). Jeśli dopiero konstruujesz wynik, ale nie określasz progu diagnostycznego, potrzebne są podejścia AUC (z następującym zastrzeżeniem dotyczącym samego AUC).

Więc co jest nie tak z c-statystyka / AUC / Gini?

Przez wiele lat AUC było standardowym podejściem i jest nadal szeroko stosowane, jednak istnieje z tym wiele problemów. Jedną z rzeczy, która sprawiła, że ​​była szczególnie atrakcyjna, było to, że odpowiada testowi Wilcoxa w szeregach klasyfikacji. Oznacza to, że mierzy się prawdopodobieństwo, że wynik losowo wybranego członka jednej klasy będzie wyższy niż losowo wybrany członek innej klasy. Problem polega na tym, że prawie nigdy nie jest to użyteczna miara.

Najważniejsze problemy z AUC zostały opublikowane przez Davida Handa kilka lat temu. (Patrz odnośniki poniżej) Istotą problemu jest to, że podczas gdy AUC osiąga średnią wszystkich kosztów, ponieważ oś X krzywej ROC to Fałszywy wskaźnik dodatni, waga przypisywana różnym systemom kosztów różni się między klasyfikatorami. Jeśli więc obliczysz AUC dla dwóch różnych regresji logicznych, nie będzie to oznaczało „tego samego” w obu przypadkach. Oznacza to, że porównywanie modeli opartych na AUC nie ma sensu.

Hand zaproponował alternatywne obliczenia przy użyciu stałej wagi kosztów i nazwał to miarą H - w pakiecie o nazwie R hmeasurewykona się to obliczenie i uważam, że AUC do porównania.

Niektóre odniesienia do problemów z AUC:

  • Kiedy obszar pod krzywą charakterystyczną pracy odbiornika jest odpowiednią miarą wydajności klasyfikatora? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495

    (Uważam, że jest to szczególnie dostępne i przydatne wyjaśnienie)

Corone
źródło
2
A oto kolejny artykuł autorstwa DJ Handa: Pomiar wydajności klasyfikatora: spójna alternatywa dla obszaru pod krzywą ROC , Machine Learning (2009) 77: 103–123.
chl
Właśnie tego szukałem - tak, to był pierwszy kluczowy artykuł na ten temat (choć myślę, że w konsekwencji jest on skierowany do bardziej technicznych odbiorców niż niektóre późniejsze artykuły).
Corone
3
R2)
Jestem zdezorientowany odpowiedzią Corone, myślałem, że AIC nie ma nic wspólnego z predykcyjną wydajnością modelu i że jest to tylko miara prawdopodobieństwa, że ​​dane zostaną sprzedane ze złożonością modelu.
Zhubarb
@Berkan nie masz pewności, co rozumiesz przez „nie ma nic wspólnego z wydajnością predykcyjną”, chyba że po prostu masz na myśli, że jest to pomiar w próbie, a nie poza próbą? (Im większe prawdopodobieństwo, tym lepiej „przewiduje” te punkty danych). Chodzi o to, że AIC jest dla określonej, wcześniej wybranej funkcji prawdopodobieństwa, podczas gdy AIC jest średnią dla zestawu z nich. Jeśli znasz prawdopodobieństwo (tj. Próg, koszty, rozpowszechnienie ...), możesz użyć AIC.
Corone,
3

Cytowany papier ręczny nie ma podstaw do rzeczywistego zastosowania w diagnostyce klinicznej. Ma teoretyczną krzywą z 0,5 AUC, co jest idealnym klasyfikatorem. Używa jednego zestawu danych rzeczywistych, w których modele byłyby wyrzucane z ręki, ponieważ są one tak złe, a przy uwzględnianiu przedziałów ufności wokół pomiarów (danych nie dostarczono, ale wywnioskowano) prawdopodobnie będą one losowe . Biorąc pod uwagę brak rzeczywistych danych (lub nawet wiarygodnej symulacji), jest to wydrążony papier. Osobiście brałem udział w analizie tysięcy klasyfikatorów wśród tysięcy pacjentów (z wystarczającymi stopniami swobody). W tym kontekście jego argumenty są pozbawione sensu.

Jest również podatny na superlatywy (niezbyt dobry znak w żadnym kontekście) i dokonuje nieobsługiwanych uogólnień, np. Koszty nie mogą być znane. W medycynie akceptowane są koszty, takie jak 10% dodatnia wartość predykcyjna testów przesiewowych i 100 000 USD na rok życia skorygowany o jakość interwencji terapeutycznych. Trudno mi uwierzyć, że w ocenie kredytowej koszty nie są dobrze rozumiane. Jeśli mówi (niejasno), że różne indywidualne fałszywie dodatnie i fałszywe negatywy niosą różne koszty, chociaż jest to bardzo interesujący temat, nie przypomina binarne klasyfikatory.

Jeśli chodzi o to, że kształt ROC ma znaczenie, to dla zaawansowanych użytkowników jest to oczywiste, a niewyszukani użytkownicy mają o wiele więcej powodów do zmartwień, np. Włączenie rozpowszechnienia do pozytywnych i negatywnych wartości predykcyjnych.

Wreszcie nie potrafię zrozumieć, w jaki sposób nie można oceniać różnych klasyfikatorów na podstawie różnych rzeczywistych granic, określonych przez kliniczne (lub finansowe) zastosowanie modeli. Oczywiście dla każdego modelu zostaną wybrane różne wartości odcięcia. Modele nie byłyby porównywane wyłącznie na podstawie AUC. Klasyfikatory nie mają znaczenia, ale kształt krzywej ma znaczenie.

użytkownik162905
źródło
-1

Dla mnie najważniejsze jest to, że chociaż statystyka C (AUC) może być problematyczna podczas porównywania modeli z różnymi zmiennymi niezależnymi (analogicznie do tego, co Hand nazywa „klasyfikatorami”), jest nadal przydatna w innych aplikacjach. Na przykład badania walidacyjne, w których ten sam model jest porównywany w różnych populacjach badań (zestawy danych). Jeżeli okaże się, że model lub wskaźnik ryzyka / wynik są wysoce dyskryminujące w jednej populacji, ale nie w innych, może to oznaczać, że ogólnie nie jest to bardzo dobre narzędzie, ale może występować w określonych przypadkach.

Dave
źródło
3
R2)