Związek między KS, AUROC i Gini

11

Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało mi się znaleźć niczego w Internecie, ale jestem naprawdę zainteresowany działaniem dowodów. Na przykład znam Gini = 2AUROC-1, ale moim najlepszym dowodem jest wskazanie na wykresie. Interesują mnie formalne dowody. Każda pomoc byłaby bardzo mile widziana!

Steven
źródło
1
Czy przez KS rozumiesz statystykę Kołmogorowa-Smirnowa? AUROC jest prawdopodobnie obszarem pod krzywą ROC?
Nitesh
Wydaje się, że warto zacząć od Wikipedii i zapoznać się z oryginalnymi źródłami.
LauriK

Odpowiedzi:

1

Wpis w Wikipedii dotyczący charakterystyki operacyjnej Odbiornika odwołuje się do tego dokumentu dla wyniku Gini = 2AUROC-1: Hand, David J .; i Till, Robert J. (2001); Proste uogólnienie obszaru pod krzywą ROC dla problemów z klasyfikacją wielu klas, Machine Learning, 45, 171–186. Ale obawiam się, że nie mam łatwego dostępu do tego, aby zobaczyć, jak blisko jest tego, czego chcesz.

nealmcb
źródło
1
... i może to być bezużyteczny wynik, ponieważ Gini jest zwykle stosowane do danych, które mają dwa oznakowania kategorialne, podczas gdy AUROC jest stosowany do liczbowych danych rankingowych + etykiety binarnej. Oni mogą pokrywać tylko jeśli ranking jest binarny? w takim przypadku użycie AUROC w ogóle nie miałoby sensu, ponieważ jest to 3-punktowa krzywa z tylko 2 stopniami swobody ... (Nie sprawdziłem tego wyniku, zbyt dużo spamu papierowego na Wikipedii.)
Ma ZAKOŃCZENIE - Anony-Mousse
0

Według pracy (Adeodato, PJ L i Melo, SB 2016) istnieje liniowa zależność między obszarem pod krzywą KS (AUKS) a obszarem pod krzywą ROC (AUROC), a mianowicie:

ZAUROdo=0,5+ZAUK.S.

Dowód równoważności znajduje się w artykule.

ntzortzis
źródło
0

Wynik Gini = 2 * AUROC-1 jest trudny do udowodnienia, ponieważ niekoniecznie jest to prawda. Artykuł w Wikipedii na temat krzywej charakterystyki odbiornika podaje wynik jako definicję Giniego, a artykuł Hand and Till (cytowany przez nealmcb) mówi jedynie, że graficzna definicja Gini za pomocą krzywej ROC prowadzi do tej formuły.

Problem polega na tym, że ta definicja Gini jest używana w społecznościach uczących się maszyn i inżynierii, ale ekonomiści i demografowie używają innej definicji (wracając do oryginalnej pracy Giniego). Artykuł w Wikipedii na temat współczynnika Giniego określa tę definicję na podstawie krzywej Lorenza.

Papieru przez Schechtman i Schechtman (2016) przedstawia zależność między AUC a pierwotnym definicji Giniego. Ale aby zobaczyć, że nie mogą być dokładnie takie same, załóżmy, że odsetek zdarzeń wynosi p i że mamy doskonały klasyfikator. Krzywa ROC przechodzi następnie przez lewy górny róg, a AUCROC wynosi 1. Jednak (odwrócona) krzywa Lorenza biegnie od (0,0) do ( p , 1) do (1,1), a Gini ekonomistów wynosi 1 - p / 2, co jest prawie, ale nie dokładnie 1.

Jeśli zdarzenia są rzadkie, to zależność Gini = 2 * AUROC-1 jest prawie, ale nie do końca prawdziwa, przy użyciu oryginalnej definicji Giniego. Relacja jest prawdziwa tylko wtedy, gdy Gini zostanie na nowo zdefiniowana, aby była prawdziwa.

PaulVD
źródło