Czy dokładność jest niewłaściwą zasadą punktacji w ustawieniach klasyfikacji binarnej?

13

Ostatnio uczyłem się o prawidłowych regułach punktacji dla klasyfikatorów probabilistycznych. Kilka wątków na tej stronie internetowej podkreślało, że dokładność jest niewłaściwą zasadą punktacji i nie należy jej wykorzystywać do oceny jakości prognoz generowanych przez model probabilistyczny, taki jak regresja logistyczna.

Jednak wiele artykułów akademickich, które przeczytałem, podało utratę błędnej klasyfikacji jako przykład (nie ścisłej) właściwej reguły punktacji w ustawieniach binarnej klasyfikacji. Najczystsze wyjaśnienie, jakie udało mi się znaleźć, znajduje się w tym artykule , na dole strony 7. O ile mi wiadomo, minimalizacja strat wynikających z błędnej klasyfikacji jest równoznaczna z maksymalizacją dokładności, a równania w tym dokumencie mają intuicyjny sens.

Na przykład: stosując notację papierową, jeśli prawdziwe prawdopodobieństwo warunkowe (biorąc pod uwagę pewien wektor cech x ) danej klasy wynosi η = 0,7, każda prognoza q > 0,5 miałaby oczekiwaną stratę R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3, a każdy q 0,5 miałby oczekiwaną stratę 0,7. Funkcja strat byłaby zatem zminimalizowana przy q = η = 0,7, a zatem właściwa; uogólnienie na cały zakres prawdziwych prawdopodobieństw warunkowych i prognoz wydaje się dość proste.

Zakładając, że powyższe obliczenia i stwierdzenia są prawidłowe, oczywiste są wady nieunikalnego minimum i wszystkich prognoz powyżej 0,5, które dzielą tę samą minimalną oczekiwaną stratę. Nadal nie widzę powodu, aby używać dokładności w porównaniu z tradycyjnymi alternatywami, takimi jak wynik logu, wynik Briera itp. Prawdą jest jednak stwierdzenie, że dokładność jest właściwą zasadą punktacji podczas oceny modeli probabilistycznych w układzie binarnym, czy też robię błąd - albo w moim rozumieniu utraty błędnej klasyfikacji, albo w zrównaniu go z dokładnością?

Zyzzva
źródło

Odpowiedzi:

15

TL; DR

Dokładność jest niewłaściwą zasadą punktacji. Nie używaj tego.

Nieco dłuższa wersja

W rzeczywistości dokładność nie jest nawet regułą punktacji. Pytanie o to, czy jest (ściśle) właściwe, jest błędem kategorii. Możemy jedynie powiedzieć, że przy dodatkowych założeniach dokładność jest zgodna z zasadą punktacji, która jest niewłaściwa, nieciągła i myląca. (Nie używaj tego.)

Twoje zamieszanie

Twoje zamieszanie wynika z faktu, że utrata błędnej klasyfikacji według cytowanego artykułu nie jest również regułą punktacji.

Szczegóły: reguły punktacji a oceny klasyfikacji

Naprawmy terminologię. Interesuje nas wynik binarny i mamy przewidywanie probabilistyczne . Wiemy, że , ale nasz model może o tym wiedzieć lub nie.y{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

Zasada punktacji jest odwzorowaniem, które wykonuje probabilistyczny przewidywania i wynikiem do stratq^y

s:(q^,y)s(q^,y).

s jest poprawny, jeśli jest zoptymalizowany w oczekiwaniu przez . („Zoptymalizowane” zwykle oznacza „zminimalizowane”, ale niektórzy autorzy odwracają znaki i próbują zmaksymalizować regułę punktacji.) jest ściśle poprawne, jeśli jest zoptymalizowane w oczekiwaniu tylko przez .q^=ηsq^=η

Będziemy zazwyczaj oceniają na wielu przepowiedni i odpowiadające im wyniki a średnia oszacować te oczekiwania.sq^iyi

Czym jest dokładność ? Dokładność nie bierze pod uwagę probabilistycznej prognozy jako argumentu. Wymaga klasyfikacjiy^{0,1} i wynik:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

Dlatego dokładność nie jest regułą punktacji . Jest to ocena klasyfikacyjna. (To termin, który właśnie wymyśliłem; nie szukaj go w literaturze).

Teraz oczywiście możemy przyjąć prognozę probabilistyczną, taką jak nasza i przekształcić ją w klasyfikację . Aby to zrobić, będziemy potrzebować dodatkowych założeń, o których mowa powyżej. Na przykład bardzo często używa się progu i klasyfikuje:q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

Bardzo częstą wartością progową jest . Należy zauważyć, że jeśli zastosujemy ten próg, a następnie ocenimy dokładność wielu prognoz (jak wyżej) i odpowiadających im wyników , wówczas dochodzimy dokładnie do utraty błędnej klasyfikacji zgodnie z Buja i in. Zatem utrata błędnej klasyfikacji nie jest również regułą punktacji, ale oceną klasyfikacji.θ=0.5q^iyi

Jeśli weźmiemy algorytm klasyfikacji podobny do powyższego, możemy przekształcić ocenę klasyfikacji w regułę punktacji. Chodzi o to, że potrzebujemy dodatkowych założeń klasyfikatora. I ta dokładność lub utrata błędnej klasyfikacji lub jakakolwiek inna ocena klasyfikacji, którą wybieramy, może wtedy mniej zależeć od prognozy probabilistycznej a bardziej od sposobu, w jaki przekształcamy w klasyfikację . Tak więc optymalizacja oceny klasyfikacji może ścigać czerwonego śledzia, jeśli naprawdę jesteśmy zainteresowani oceną .q^q^y^=y^(q^,θ)q^

Co jest zatem niewłaściwe w tych założeniach dotyczących zasad punktacji poniżej dodatkowych? Nic w niniejszej sprawie. , pod domyślnym , zmaksymalizuje dokładność i zminimalizuje utratę błędnej klasyfikacji w stosunku do wszystkich możliwych . Tak więc w tym przypadku nasze założenia dotyczące reguły punktacji poniżej dodatkowych są właściwe.q^=ηθ=0.5q^(0,1)

Zauważ, że ważne dla utraty dokładności lub błędnej klasyfikacji jest tylko jedno pytanie: czy klasyfikujemy ( ) wszystko jako klasę większości, czy nie? y^Jeśli to zrobimy, utrata dokładności lub błędna klasyfikacja są satysfakcjonujące. Jeśli nie, nie są. Ważne w tym pytaniu jest to, że ma ono bardzo wątły związek z jakością .q^

W związku z tym nasze założenia dotyczące reguł punktowania pod dodatkowymi nie są ściśle właściwe, ponieważ każde doprowadzi do tej samej oceny klasyfikacji. Możemy użyć standardowego , wierzyć, że klasa większości występuje z i sklasyfikować wszystko jako klasę większości, ponieważ . Dokładność jest wysoka, ale nie mamy motywacji, aby poprawić naszą do prawidłowej wartości .q^θθ=0.5q^=0.99q^θq^η

Lub moglibyśmy przeprowadzić obszerną analizę asymetrycznych kosztów błędnej klasyfikacji i zdecydować, że najlepszy próg prawdopodobieństwa klasyfikacji powinien faktycznie wynosić . Może się to na przykład zdarzyć, jeśli oznacza, że ​​cierpisz na jakąś chorobę. Lepiej leczyć cię, nawet jeśli nie cierpisz na chorobę ( ), a nie na odwrót, więc leczenie ludzi może mieć sens, nawet jeśli istnieje małe przewidywane prawdopodobieństwo (małe ) cierpią z tego powodu. Możemy wtedy mieć strasznie zły model, który uważa, że ​​prawdziwa klasa większości występuje tylko zθ=0.2y=1y=0q^q^=0.25- ale ze względu na koszty błędnej klasyfikacji wszystko nadal klasyfikujemy jako tę (zakładaną) klasę mniejszości, ponieważ znowu . Gdybyśmy to zrobili, utrata dokładności lub błędnej klasyfikacji sprawiłaby, że uwierzyliśmy, że robimy wszystko dobrze, nawet jeśli nasz model predykcyjny nie pozwala nawet ustalić, która z naszych dwóch klas jest klasą większościową.q^θ

Dlatego utrata dokładności lub błędnej klasyfikacji może wprowadzać w błąd.

Ponadto dokładność i utrata błędnej klasyfikacji niewłaściwe przy dodatkowych założeniach w bardziej złożonych sytuacjach, w których wyniki nie są istotne. Frank Harrell w swoim blogu „ Uszkodzenie spowodowane dokładnością klasyfikacji i innymi nieciągłymi zasadami niewłaściwej dokładności” przytacza przykład z jednej ze swoich książek, w których stosowanie dokładności lub utrata błędnej klasyfikacji doprowadzi do błędnie określonego modelu, ponieważ nie są one zoptymalizowane przez prawidłowe przewidywanie warunkowe prawdopodobieństwo.

Innym problemem związanym z utratą dokładności i błędnej klasyfikacji jest to, że są one nieciągłe w zależności od wartości progowej . Frank Harrell też się tym zajmuje.θ

Więcej informacji można znaleźć na stronie Dlaczego dokładność nie jest najlepszym miernikiem do oceny modeli klasyfikacji? .

Dolna linia

Nie używaj dokładności. Ani strata z powodu błędnej klasyfikacji.

Nitpick: „ścisły” vs. „ściśle”

Czy powinniśmy mówić o „ścisłych” właściwych zasadach punktacji, czy o „ściśle” właściwych regułach punktacji? „Surowy” modyfikuje „właściwy”, a nie „regułę punktacji”. (Istnieją „właściwe reguły punktacji” i „ściśle właściwe reguły punktacji”, ale nie ma „ścisłych zasad punktacji”.) Jako takie, „ściśle” powinno być przysłówkiem, a nie przymiotnikiem, i „ściśle” powinno być stosowane. Jak to jest bardziej powszechne w literaturze, np. W pracach Tilmanna Gneitinga.

Stephan Kolassa
źródło
Jest wiele aspektów twojego postu, których nie śledzę (lub uważam, że nie mają związku z pytaniem, które zadałem), ale zacznijmy od „straty w błędach klasyfikacji według cytowanego artykułu nie jest regułą punktacji”. Wzór podany jest bardzo wyraźnie w artykule: L1 (1-q) = 1 [q <= 0,5] (wybacz złe formatowanie). Jest to, dla wszystkich praktycznych celów, funkcja krokowa, która bezpośrednio odwzorowuje każdą prognozę probabilistyczną i związany z nią wynik na utratę 0 lub 1. Ponadto 0,5 jest tylko parametrem kontrolującym miejsce wystąpienia kroku; Nie widzę w tym „założenia”. Jak to nie jest zasada punktacji?
Zyzzva
1
Progu 0.5 jest założenie. Prognozowanie probabilistyczne jest odwzorowywane na klasyfikację za pomocą progu, a utrata błędnej klasyfikacji jest wtedy tylko funkcją tej klasyfikacji. Możesz obliczyć stratę błędną klasyfikację jednakowo dla każdej innej klasyfikacji, np. Takiej, która rzuca kostką i przypisuje instancję do klasy A, jeśli rzucimy 1 lub 2. Starałem się wyjaśnić, co jest skomplikowanym i często źle zrozumianym tematem (i Czuję, że wszystko, o czym piszę, jest istotne); Przepraszam, jeśli mi się nie udało. Z przyjemnością omówię wszelkie pozostałe kwestie. q
Stephan Kolassa
1
Jeśli chodzi o komentarz dotyczący trafności, przepraszam, że poszedł w niewłaściwy sposób. Starałem się skoncentrować zakres pytania, aby był konkretny o tym, co właściwe, a co niewłaściwe, a nie nieciągłe / mylące itp. Jestem dobrze zaznajomiony z podanymi linkami i nie mam problemów z twoimi komentarzami na temat kosztów błędnej klasyfikacji lub wyniku finansowego. Po prostu szukam bardziej rygorystycznego wyjaśnienia stwierdzenia „dokładność jest niewłaściwa”, szczególnie biorąc pod uwagę, że w tym dokumencie sugeruje się inaczej w przypadku typowego zastosowania wyników binarnych. Doceniam, że poświęciłeś czas na omówienie tego ze mną i podzielenie się szczegółowymi przemyśleniami.
Zyzzva
1
Po dalszej refleksji wydaje mi się, że jaśniej rozumiem, o czym mówisz. Jeśli weźmiemy pod uwagę tę samą funkcję kroku z krokiem 0,6 (odpowiadającym klasyfikacji przy progu 0,6), to zasada punktacji jest niewłaściwa, ponieważ oczekiwanej straty nie będzie już minimalizowana przez prognozę q = n dla nw zakresie [ 0,5, 0,6]. Mówiąc bardziej ogólnie, będzie to niewłaściwe na każdym progu innym niż 0,5, a często w praktyce chcemy zastosować inne progi ze względu na asymetryczne koszty błędnej klasyfikacji, jak wskazałeś.
Zyzzva
1
Zgadzam się, że dokładność jest wyraźnie złym miernikiem do oceny prawdopodobieństwa, nawet jeśli uzasadniony jest próg 0,5. Powiedziałem tyle samo na końcu oryginalnego postu, który napisałem, ale pomogło mi to wyjaśnić szczegóły, z którymi miałem problemy - mianowicie pogodzenie czegoś, co źle zrozumiałem, jako pokazanie, że dokładność jest właściwa dla wyników binarnych (gdy w rzeczywistości jest to tylko dotyczy bardzo szczególnego przypadku progu 0,5) z pozornie czarno-białym stwierdzeniem „dokładność jest nieprawidłowa”, które dużo widziałem. Dziękujemy za pomoc i cierpliwość.
Zyzzva