Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało mi się znaleźć niczego w Internecie, ale jestem naprawdę zainteresowany działaniem dowodów. Na przykład znam Gini = 2AUROC-1, ale moim najlepszym dowodem jest wskazanie na wykresie. Interesują mnie formalne dowody. Każda pomoc byłaby bardzo mile widziana!
11
Odpowiedzi:
Wpis w Wikipedii dotyczący charakterystyki operacyjnej Odbiornika odwołuje się do tego dokumentu dla wyniku Gini = 2AUROC-1: Hand, David J .; i Till, Robert J. (2001); Proste uogólnienie obszaru pod krzywą ROC dla problemów z klasyfikacją wielu klas, Machine Learning, 45, 171–186. Ale obawiam się, że nie mam łatwego dostępu do tego, aby zobaczyć, jak blisko jest tego, czego chcesz.
źródło
Według pracy (Adeodato, PJ L i Melo, SB 2016) istnieje liniowa zależność między obszarem pod krzywą KS (AUKS) a obszarem pod krzywą ROC (AUROC), a mianowicie:
Dowód równoważności znajduje się w artykule.
źródło
Wynik Gini = 2 * AUROC-1 jest trudny do udowodnienia, ponieważ niekoniecznie jest to prawda. Artykuł w Wikipedii na temat krzywej charakterystyki odbiornika podaje wynik jako definicję Giniego, a artykuł Hand and Till (cytowany przez nealmcb) mówi jedynie, że graficzna definicja Gini za pomocą krzywej ROC prowadzi do tej formuły.
Problem polega na tym, że ta definicja Gini jest używana w społecznościach uczących się maszyn i inżynierii, ale ekonomiści i demografowie używają innej definicji (wracając do oryginalnej pracy Giniego). Artykuł w Wikipedii na temat współczynnika Giniego określa tę definicję na podstawie krzywej Lorenza.
Papieru przez Schechtman i Schechtman (2016) przedstawia zależność między AUC a pierwotnym definicji Giniego. Ale aby zobaczyć, że nie mogą być dokładnie takie same, załóżmy, że odsetek zdarzeń wynosi p i że mamy doskonały klasyfikator. Krzywa ROC przechodzi następnie przez lewy górny róg, a AUCROC wynosi 1. Jednak (odwrócona) krzywa Lorenza biegnie od (0,0) do ( p , 1) do (1,1), a Gini ekonomistów wynosi 1 - p / 2, co jest prawie, ale nie dokładnie 1.
Jeśli zdarzenia są rzadkie, to zależność Gini = 2 * AUROC-1 jest prawie, ale nie do końca prawdziwa, przy użyciu oryginalnej definicji Giniego. Relacja jest prawdziwa tylko wtedy, gdy Gini zostanie na nowo zdefiniowana, aby była prawdziwa.
źródło