Dlaczego suma Precyzji i Odwołania nie jest godnym środkiem?

12

Jaki jest najlepszy sposób, aby wyjaśnić, dlaczego jest nie dobry środek, powiedzmy, w porównaniu do F1?Precision+Recall

matowy
źródło
Co by to znaczyło Jak byś to zinterpretował? Co by ci to powiedziało?
Matthew Drury
1
Powinieneś zmienić tytuł, zastępując „Precision + Recall” słowem „suma Precision and Recall”, aby wyjaśnić, czego chcesz.
g3o2
@ g3o2 mówimy tutaj o gramatyce, czy brakuje mi czegoś większego?
mat
Niezupełnie, po prostu zauważając, że można go również odczytać Precyzja i przywołanie, w szczególności podczas czytania samego tytułu.
g3o2

Odpowiedzi:

18

Nie jest tak, że jest złym miernikiem per se, po prostu że wynikowa liczba sama w sobie nie ma żadnego znaczenia. Jesteś na dobrej drodze ... to, czego szukamy, to łączna, średnia z dwóch miar wydajności, ponieważ nie chcemy wybierać między nimi.Precision+Recall

Przypomnij sobie, że precyzja i wycofanie są zdefiniowane jako:

przywołanie=prawdziwie pozytywne

Precision=True PositivePredicted Positive
Recall=True PositiveActual Positive

Ponieważ oba mają różne mianowniki, dodanie ich razem daje w wyniku coś takiego: ... co nie jest szczególnie przydatne.

True Positive(Predicted Positive+Actual Positive)Predicted Positive×Actual Positive

Wróćmy do dodawania ich razem i poprawiania: pomnóż je przez , aby pozostały we właściwej skali, . To bierze znaną średnią z nich. [0-1]12[01]

12×(True PositivePredicted Positive+True PositiveActual Positive)

Mamy więc dwie wielkości, które mają ten sam licznik, ale różne mianowniki i chcielibyśmy wziąć ich średnią. Co robimy? Cóż, moglibyśmy je odwrócić, wziąć ich odwrotność. Następnie możesz dodać je razem. Tak więc są „prawą stroną do góry”, ponownie odwróć.

Ten proces odwracania, a następnie odwracania ponownie zamienia „zwykły” środek w harmoniczny. Tak się składa, że ​​harmoniczną średnią precyzji i przywołania jest statystyka F1. Średnia harmoniczna jest zwykle stosowana zamiast standardowej średniej arytmetycznej w przypadku stawek, ponieważ my tutaj jesteśmy.

Ostatecznie statystyka F1 jest tylko średnią precyzji i przywołania, a używasz jej, ponieważ nie chcesz wybierać jednego lub drugiego do oceny wydajności modelu.

David Ciani
źródło
2
Naprawdę wielkie dzięki za życzliwe rozwinięcie średniej harmonicznej ze średniej algebraicznej! ale to, co prawdopodobnie nie pasuje do mnie zbyt mocno, to ta część, w której mówisz „co nie jest szczególnie przydatne”. W tym duchu skomentowałem poniżej dwie pozostałe odpowiedzi. Na wypadek, gdybyś poszedł o krok dalej. Np. Wyobraź sobie, że chciałbym wybrać najlepszy klasyfikator spośród grupy klasyfikatorów testowanych na tym samym zbiorze danych.
mat
@matt, użycie dowolnej połączonej miary doprowadzi wybór modelu do pewnego punktu, ale nie dalej. Dwa modele o tej samej wartości F1 mogą pokazywać całkowicie przeciwne wartości Recall i Precision. Dlatego, aby F1 była taka sama, będziesz musiał wybrać pomiędzy Recall i Precision.
g3o2
4

Krótka odpowiedź brzmi: nie spodziewałbyś się, że sumowanie dwóch wartości procentowych, które mają dwa różne mianowniki, ma jakieś szczególne znaczenie. Stąd podejście do podjęcia średniej miary, takiej jak F1, F2 lub F0.5. Te ostatnie zachowują przynajmniej właściwość procentową. A co z ich znaczeniem?

Piękno Precyzji i Odwołania jako oddzielnych miar polega na łatwości interpretacji i na tym, że można je łatwo skonfrontować z celami biznesowymi modelu. Precyzja mierzy odsetek true positivesspośród przypadków sklasyfikowanych positivewedług modelu. Wycofanie mierzy odsetek true positivesznalezionych przez model ze wszystkich trueprzypadków. W przypadku wielu problemów będziesz musiał wybrać między optymalizacją albo Precyzja, albo przywołanie.

Każda średnia miara traci powyższą interpretację i sprowadza się do tego, który wolisz najbardziej. F1 oznacza, że ​​albo nie wiesz, czy wolisz Recall, czy Precision, czy przypisujesz jednakową wagę każdemu z nich. Jeśli uważasz, że Przypomnienie jest ważniejsze niż Precyzja, powinieneś także przypisać mu większą wagę w obliczeniach średnich (np. F2) i odwrotnie (np. F0,5).

g3o2
źródło
3

Dodanie dwóch jest złym środkiem. Otrzymasz wynik co najmniej 1, jeśli oznaczysz wszystko jako pozytywne, ponieważ jest to 100% wycofanie z definicji. A do tego dostaniesz niewielką precyzję. Średnia geometryczna zastosowana w F1 podkreśla słabe ogniwo, ponieważ jest multiplikatywne; musisz przynajmniej dobrze sobie radzić z precyzją i wycofaniem, aby uzyskać przyzwoity wynik w F1.

Ben Ogorek
źródło
Właściwie to właśnie to podkreślenie słabego ogniwa, które uważam za zbędne, gdy Precyzja i Przywołanie są rozsądne, a nie nerwowe. Kiedy oba są niespokojne, nie jestem pewien, czy dostrzegam wartość dodaną metryki podkreślającej podobieństwo między nimi, czy inaczej różnie wpływającą na wielkość różnic. Ta właśnie właściwość częściowo uzasadniła moje oryginalne pytanie tutaj.
mat
Brzmi dla mnie jak dodatkowa praca. Jeśli cenisz sobie punkt procentowy przywołania na równi z precyzją, to sądzę, że używasz tej miary. Ale nie wyobrażam sobie, żebyś to zrobił. Przypomnienie prawdopodobnie będzie dominować, nawet jeśli zmniejszysz zasięg. Możesz precyzyjnie skalować przypominanie, aby było jabłko-do-jabłka, ale to znowu więcej pracy i sprawia, że ​​interpretacja jest mniej jasna.
Ben Ogorek,
1
Nie jestem pewien, dlaczego zakładamy, że przypomnienie powinno dominować (?), Ale skalowanie przypominania z dokładnością do jabłek może być interesującą pokrewną dyskusją tutaj lub gdzie indziej - wskazówka we właściwym kierunku może być miła :), a poza tym jeszcze raz dziękuję
mat
3

Wynik F1 jest szczególnie cenny w przypadku wysoce asymetrycznych prawdopodobieństw.

Rozważ następujący przykład: testujemy na rzadką, ale niebezpieczną chorobę. Załóżmy, że w mieście 1 000 000 ludzi zarażonych jest tylko 100 osób.

Test A wykrywa wszystkie te 100 pozytywów. Jednak ma również 50% odsetek wyników fałszywie dodatnich: błędnie pokazuje kolejne 500 000 osób chorych.

Tymczasem test B pomija 10% zainfekowanych, ale daje tylko 1000 fałszywie pozytywnych wyników (0,1% fałszywie pozytywnych wyników)

Obliczmy wyniki. W przypadku testu A precyzja będzie wynosić 0; przywołanie wyniesie dokładnie 1. Dla testu B precyzja nadal będzie raczej niewielka, około 0,01. Wycofanie będzie równe 0,9.

Jeśli naiwnie sumujemy lub bierzemy średnią arytmetyczną precyzji i przywołania, daje to 1 (0,5) dla testu A i 0,91 (0,455) dla testu B. Zatem test A wydaje się nieznacznie lepszy.

Jeśli jednak spojrzymy z praktycznego punktu widzenia, test A jest bezwartościowy: jeśli dana osoba jest pozytywnie przetestowana, jego szansa na prawdziwą chorobę wynosi 1 na 50 000! Test B ma bardziej praktyczne znaczenie: możesz zabrać 1.100 osób do szpitala i uważnie ich obserwować. Jest to dokładnie odzwierciedlone w wyniku F1: dla testu A będzie on bliski 0,0002, dla testu B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, co jest nadal dość słabe, ale około 50 razy lepsze.

To dopasowanie wartości wyniku do znaczenia praktycznego sprawia, że ​​wynik F1 jest cenny.

imiltemp
źródło
Dzięki. Może nie jestem wystarczająco pochłonięty sprawą, ale czy to wyjaśnienie nie zależy od pragmatycznej korzyści przydzielania zasobów „pozytywnym” w prawdziwej dziedzinie, w której celem jest wykrycie jednego wyniku (pozytywnego)? nie zawsze tak jest, że celem jest wykrycie jednego wyniku, prawda? czasem chcesz po prostu wiedzieć, czy to jabłko, czy para, a oba rodzaje błędów mają ten sam praktyczny koszt w rzeczywistości.
mat
Przede wszystkim nie dostrzegam, w jaki sposób ta właściwość „lepszego” skaluje się do przypadków, w których (absolutna) różnica między precyzją a przywołaniem jest mniej patologiczna. Może intuicja jest nieodłącznie obecna, ale jeszcze mnie tam nie ma ...
Matt
1

Ogólnie, maksymalizacja średniej geometrycznej podkreśla podobne wartości. Weźmy na przykład dwa modele: pierwszy ma (precyzja, przywołanie) = (0,8; 0,8), a drugi ma (precyzja, przywołanie) = (0,6; 1,0). Używając średniej algebraicznej, oba modele byłyby równoważne. Korzystając ze średniej geometrycznej, pierwszy model jest lepszy, ponieważ nie wymienia precyzji na przywołanie.

okrągły kwadrat
źródło
1
Wielkie dzięki. Jednak w praktyce nie widzę żadnych powszechnie stosowanych preferencji między np. (0,8, 0,8) i (0,7, 0,9). Być może zasugerowałeś coś głębszego w „zamianie Precyzji na wycofanie” - czego sam nie rozumiem (jeszcze). Dla mnie algebraicznie uśredniając dwa rodzaje błędów, po prostu daje najprostszą z nich, bez żadnego uprzedzenia do podobieństwa. Np. Mógłbym użyć prostego podsumowania Precyzji i Przywołania, aby ustalić, który z dwóch klasyfikatorów daje mi mniej błędów.
mat
Możemy doprowadzić to do skrajności. Załóżmy, że masz jeden system, który ma (precyzja, przypominanie) = (0,6, 0,6). Oznacza to, że gdy powie „tak”, to w 60% przypadków ma rację i poprawnie łapie 60% zdarzeń „tak”. Porównajmy to teraz z systemem, który ma (0.3, 1). To ma lepszy środek algebraiczny, ale co on robi? Jest łowienie wszystkie „tak” zdarzeń, ale jest również powiedzenie „tak” niepoprawnie się dużo . Czy to dobrze? Czy to złe? To zależy od tego , dlaczego budujesz system. Jakie działania podejmiesz, gdy zobaczysz prognozę „tak”? Jakie są konsekwencje pominięcia zdarzenia „tak”?
roundsquare
1
Żadne z tych środków nie są prawidłowymi regułami punktacji dokładności
Frank Harrell,
@roundsquare wielkie dzięki, ale za niepatologiczne przypadki - gdy oba nie są w pobliżu 0 i 1 - prawdopodobnie potrzebuję pomocy, widząc korzyść z podkreślenia podobieństwa między nimi, w ostatecznej mierze!
mat
@FrankHarrell dziękuje za wskazanie na „słonia w pokoju”
Matt