TL; DR

Dokładność jest niewłaściwą zasadą punktacji. Nie używaj tego.

Nieco dłuższa wersja

W rzeczywistości dokładność nie jest nawet regułą punktacji. Pytanie o to, czy jest (ściśle) właściwe, jest błędem kategorii. Możemy jedynie powiedzieć, że przy dodatkowych założeniach dokładność jest zgodna z zasadą punktacji, która jest niewłaściwa, nieciągła i myląca. (Nie używaj tego.)

Twoje zamieszanie

Twoje zamieszanie wynika z faktu, że utrata błędnej klasyfikacji według cytowanego artykułu nie jest również regułą punktacji.

Szczegóły: reguły punktacji a oceny klasyfikacji

Naprawmy terminologię. Interesuje nas wynik binarny i mamy przewidywanie probabilistyczne . Wiemy, że , ale nasz model może o tym wiedzieć lub nie. $y\in\{0,1\}$ $\widehat{q} = \widehat{P}(Y=1)\in(0,1)$ $P(Y=1)=\eta>0.5$ $\widehat{q}$

Zasada punktacji jest odwzorowaniem, które wykonuje probabilistyczny przewidywania i wynikiem do strat $\widehat{q}$ $y$

s : (\hat{q}, y) \mapsto s (\hat{q}, y) .

$s\colon (\widehat{q},y) \mapsto s(\widehat{q},y).$

$s$ jest poprawny, jeśli jest zoptymalizowany w oczekiwaniu przez . („Zoptymalizowane” zwykle oznacza „zminimalizowane”, ale niektórzy autorzy odwracają znaki i próbują zmaksymalizować regułę punktacji.) jest ściśle poprawne, jeśli jest zoptymalizowane w oczekiwaniu tylko przez . $\widehat{q}=\eta$ $s$ $\widehat{q}=\eta$

Będziemy zazwyczaj oceniają na wielu przepowiedni i odpowiadające im wyniki a średnia oszacować te oczekiwania. $s$ $\widehat{q}_i$ $y_i$

Czym jest dokładność ? Dokładność nie bierze pod uwagę probabilistycznej prognozy jako argumentu. Wymaga klasyfikacji $\widehat{y}\in\{0,1\}$ i wynik:

a : (\hat{y}, y) \mapsto a (\hat{y}, y) = {\begin{cases} 1, & \hat{y} = y \\ 0, & \hat{y} \neq y . \end{cases}

$a\colon (\widehat{y},y)\mapsto a(\widehat{y},y) = \begin{cases} 1, & \widehat{y}=y \\ 0, & \widehat{y} \neq y. \end{cases}$

Dlatego dokładność nie jest regułą punktacji . Jest to ocena klasyfikacyjna. (To termin, który właśnie wymyśliłem; nie szukaj go w literaturze).

Teraz oczywiście możemy przyjąć prognozę probabilistyczną, taką jak nasza i przekształcić ją w klasyfikację . Aby to zrobić, będziemy potrzebować dodatkowych założeń, o których mowa powyżej. Na przykład bardzo często używa się progu i klasyfikuje: $\widehat{q}$ $\widehat{y}$ $\theta$

\hat{y} (\hat{q}, θ) := {\begin{cases} 1, & \hat{q} \geq θ \\ 0, & \hat{q} < θ . \end{cases}

$\widehat{y}(\widehat{q},\theta) := \begin{cases} 1, & \widehat{q}\geq \theta \\ 0, & \widehat{q}<\theta. \end{cases}$

Bardzo częstą wartością progową jest . Należy zauważyć, że jeśli zastosujemy ten próg, a następnie ocenimy dokładność wielu prognoz (jak wyżej) i odpowiadających im wyników , wówczas dochodzimy dokładnie do utraty błędnej klasyfikacji zgodnie z Buja i in. Zatem utrata błędnej klasyfikacji nie jest również regułą punktacji, ale oceną klasyfikacji. $\theta=0.5$ $\widehat{q}_i$ $y_i$

Jeśli weźmiemy algorytm klasyfikacji podobny do powyższego, możemy przekształcić ocenę klasyfikacji w regułę punktacji. Chodzi o to, że potrzebujemy dodatkowych założeń klasyfikatora. I ta dokładność lub utrata błędnej klasyfikacji lub jakakolwiek inna ocena klasyfikacji, którą wybieramy, może wtedy mniej zależeć od prognozy probabilistycznej a bardziej od sposobu, w jaki przekształcamy w klasyfikację . Tak więc optymalizacja oceny klasyfikacji może ścigać czerwonego śledzia, jeśli naprawdę jesteśmy zainteresowani oceną . $\widehat{q}$ $\widehat{q}$ $\widehat{y}=\widehat{y}(\widehat{q},\theta)$ $\widehat{q}$

Co jest zatem niewłaściwe w tych założeniach dotyczących zasad punktacji poniżej dodatkowych? Nic w niniejszej sprawie. , pod domyślnym , zmaksymalizuje dokładność i zminimalizuje utratę błędnej klasyfikacji w stosunku do wszystkich możliwych . Tak więc w tym przypadku nasze założenia dotyczące reguły punktacji poniżej dodatkowych są właściwe. $\widehat{q}=\eta$ $\theta =0.5$ $\widehat{q}\in(0,1)$

Zauważ, że ważne dla utraty dokładności lub błędnej klasyfikacji jest tylko jedno pytanie: czy klasyfikujemy ( ) wszystko jako klasę większości, czy nie? $\widehat{y}$ Jeśli to zrobimy, utrata dokładności lub błędna klasyfikacja są satysfakcjonujące. Jeśli nie, nie są. Ważne w tym pytaniu jest to, że ma ono bardzo wątły związek z jakością . $\widehat{q}$

W związku z tym nasze założenia dotyczące reguł punktowania pod dodatkowymi nie są ściśle właściwe, ponieważ każde doprowadzi do tej samej oceny klasyfikacji. Możemy użyć standardowego , wierzyć, że klasa większości występuje z i sklasyfikować wszystko jako klasę większości, ponieważ . Dokładność jest wysoka, ale nie mamy motywacji, aby poprawić naszą do prawidłowej wartości . $\widehat{q}\geq\theta$ $\theta=0.5$ $\widehat{q}=0.99$ $\widehat{q}\geq\theta$ $\widehat{q}$ $\eta$

Lub moglibyśmy przeprowadzić obszerną analizę asymetrycznych kosztów błędnej klasyfikacji i zdecydować, że najlepszy próg prawdopodobieństwa klasyfikacji powinien faktycznie wynosić . Może się to na przykład zdarzyć, jeśli oznacza, że cierpisz na jakąś chorobę. Lepiej leczyć cię, nawet jeśli nie cierpisz na chorobę ( ), a nie na odwrót, więc leczenie ludzi może mieć sens, nawet jeśli istnieje małe przewidywane prawdopodobieństwo (małe ) cierpią z tego powodu. Możemy wtedy mieć strasznie zły model, który uważa, że prawdziwa klasa większości występuje tylko z $\theta =0.2$ $y=1$ $y=0$ $\widehat{q}$ $\widehat{q}=0.25$ - ale ze względu na koszty błędnej klasyfikacji wszystko nadal klasyfikujemy jako tę (zakładaną) klasę mniejszości, ponieważ znowu . Gdybyśmy to zrobili, utrata dokładności lub błędnej klasyfikacji sprawiłaby, że uwierzyliśmy, że robimy wszystko dobrze, nawet jeśli nasz model predykcyjny nie pozwala nawet ustalić, która z naszych dwóch klas jest klasą większościową. $\widehat{q}\geq\theta$

Dlatego utrata dokładności lub błędnej klasyfikacji może wprowadzać w błąd.

Ponadto dokładność i utrata błędnej klasyfikacji są niewłaściwe przy dodatkowych założeniach w bardziej złożonych sytuacjach, w których wyniki nie są istotne. Frank Harrell w swoim blogu „ Uszkodzenie spowodowane dokładnością klasyfikacji i innymi nieciągłymi zasadami niewłaściwej dokładności” przytacza przykład z jednej ze swoich książek, w których stosowanie dokładności lub utrata błędnej klasyfikacji doprowadzi do błędnie określonego modelu, ponieważ nie są one zoptymalizowane przez prawidłowe przewidywanie warunkowe prawdopodobieństwo.

Innym problemem związanym z utratą dokładności i błędnej klasyfikacji jest to, że są one nieciągłe w zależności od wartości progowej . Frank Harrell też się tym zajmuje. $\theta$

Więcej informacji można znaleźć na stronie Dlaczego dokładność nie jest najlepszym miernikiem do oceny modeli klasyfikacji? .

Dolna linia

Nie używaj dokładności. Ani strata z powodu błędnej klasyfikacji.

Nitpick: „ścisły” vs. „ściśle”

Czy powinniśmy mówić o „ścisłych” właściwych zasadach punktacji, czy o „ściśle” właściwych regułach punktacji? „Surowy” modyfikuje „właściwy”, a nie „regułę punktacji”. (Istnieją „właściwe reguły punktacji” i „ściśle właściwe reguły punktacji”, ale nie ma „ścisłych zasad punktacji”.) Jako takie, „ściśle” powinno być przysłówkiem, a nie przymiotnikiem, i „ściśle” powinno być stosowane. Jak to jest bardziej powszechne w literaturze, np. W pracach Tilmanna Gneitinga.

Stephan Kolassa
źródło

Jest wiele aspektów twojego postu, których nie śledzę (lub uważam, że nie mają związku z pytaniem, które zadałem), ale zacznijmy od „straty w błędach klasyfikacji według cytowanego artykułu nie jest regułą punktacji”. Wzór podany jest bardzo wyraźnie w artykule: L1 (1-q) = 1 [q <= 0,5] (wybacz złe formatowanie). Jest to, dla wszystkich praktycznych celów, funkcja krokowa, która bezpośrednio odwzorowuje każdą prognozę probabilistyczną i związany z nią wynik na utratę 0 lub 1. Ponadto 0,5 jest tylko parametrem kontrolującym miejsce wystąpienia kroku; Nie widzę w tym „założenia”. Jak to nie jest zasada punktacji?

Zyzzva

Progu 0.5 jest założenie. Prognozowanie probabilistyczne jest odwzorowywane na klasyfikację za pomocą progu, a utrata błędnej klasyfikacji jest wtedy tylko funkcją tej klasyfikacji. Możesz obliczyć stratę błędną klasyfikację jednakowo dla każdej innej klasyfikacji, np. Takiej, która rzuca kostką i przypisuje instancję do klasy A, jeśli rzucimy 1 lub 2. Starałem się wyjaśnić, co jest skomplikowanym i często źle zrozumianym tematem (i Czuję, że wszystko, o czym piszę, jest istotne); Przepraszam, jeśli mi się nie udało. Z przyjemnością omówię wszelkie pozostałe kwestie.

q

$q$

Stephan Kolassa

Jeśli chodzi o komentarz dotyczący trafności, przepraszam, że poszedł w niewłaściwy sposób. Starałem się skoncentrować zakres pytania, aby był konkretny o tym, co właściwe, a co niewłaściwe, a nie nieciągłe / mylące itp. Jestem dobrze zaznajomiony z podanymi linkami i nie mam problemów z twoimi komentarzami na temat kosztów błędnej klasyfikacji lub wyniku finansowego. Po prostu szukam bardziej rygorystycznego wyjaśnienia stwierdzenia „dokładność jest niewłaściwa”, szczególnie biorąc pod uwagę, że w tym dokumencie sugeruje się inaczej w przypadku typowego zastosowania wyników binarnych. Doceniam, że poświęciłeś czas na omówienie tego ze mną i podzielenie się szczegółowymi przemyśleniami.

Zyzzva

Po dalszej refleksji wydaje mi się, że jaśniej rozumiem, o czym mówisz. Jeśli weźmiemy pod uwagę tę samą funkcję kroku z krokiem 0,6 (odpowiadającym klasyfikacji przy progu 0,6), to zasada punktacji jest niewłaściwa, ponieważ oczekiwanej straty nie będzie już minimalizowana przez prognozę q = n dla nw zakresie [ 0,5, 0,6]. Mówiąc bardziej ogólnie, będzie to niewłaściwe na każdym progu innym niż 0,5, a często w praktyce chcemy zastosować inne progi ze względu na asymetryczne koszty błędnej klasyfikacji, jak wskazałeś.

Zyzzva

Zgadzam się, że dokładność jest wyraźnie złym miernikiem do oceny prawdopodobieństwa, nawet jeśli uzasadniony jest próg 0,5. Powiedziałem tyle samo na końcu oryginalnego postu, który napisałem, ale pomogło mi to wyjaśnić szczegóły, z którymi miałem problemy - mianowicie pogodzenie czegoś, co źle zrozumiałem, jako pokazanie, że dokładność jest właściwa dla wyników binarnych (gdy w rzeczywistości jest to tylko dotyczy bardzo szczególnego przypadku progu 0,5) z pozornie czarno-białym stwierdzeniem „dokładność jest nieprawidłowa”, które dużo widziałem. Dziękujemy za pomoc i cierpliwość.

Zyzzva

Czy dokładność jest niewłaściwą zasadą punktacji w ustawieniach klasyfikacji binarnej?

Odpowiedzi:

TL; DR

Nieco dłuższa wersja

Twoje zamieszanie

Szczegóły: reguły punktacji a oceny klasyfikacji

Dolna linia

Nitpick: „ścisły” vs. „ściśle”