Chciałbym wiedzieć, jak interpretować różnicę wartości miary. Wiem, że miara f jest zrównoważonym środkiem między precyzją a pamięcią, ale pytam o praktyczne znaczenie różnicy w miarach F.
Na przykład, jeśli klasyfikator C1 ma dokładność 0,4, a inny klasyfikator C2 dokładność 0,8, wówczas możemy powiedzieć, że C2 poprawnie sklasyfikował podwójność przykładów testowych w porównaniu do C1. Jeśli jednak klasyfikator C1 ma miarę F 0,4 dla pewnej klasy, a inny klasyfikator C2 miarę F 0,8, co możemy powiedzieć o różnicy w wydajności dwóch klasyfikatorów? Czy możemy powiedzieć, że C2 poprawnie zaklasyfikowało X więcej wystąpień niż C1?
Odpowiedzi:
Nie mogę wymyślić intuicyjnego znaczenia miary F, ponieważ jest to po prostu połączona metryka. Oczywiście bardziej intuicyjna niż F-mesure jest precyzja i przywołanie.
Jednak przy użyciu dwóch wartości często nie możemy ustalić, czy jeden algorytm jest lepszy od drugiego. Na przykład, jeśli jeden algorytm ma wyższą precyzję, ale mniejszą pamięć wywoływania niż inny, w jaki sposób można stwierdzić, który algorytm jest lepszy?
Jeśli masz konkretny cel, taki jak „Precyzja jest królem. Nie przejmuję się zbytnio pamięcią ”, to nie ma problemu. Większa precyzja jest lepsza. Ale jeśli nie masz tak silnego celu, będziesz potrzebować połączonych danych. To miara F. Korzystając z niego, porównasz niektóre precyzyjne i niektóre przypominające.
Krzywa ROC jest często rysowana z podaniem miary F. Ten artykuł może Cię zainteresować, ponieważ zawiera wyjaśnienie kilku miar, w tym krzywych ROC: http://binf.gmu.edu/mmasso/ROC101.pdf
źródło
Znaczenie wyniku F1 jest różne w zależności od scenariusza. Załóżmy, że zmienna docelowa jest etykietą binarną.
źródło
Miara F ma intuicyjne znaczenie. Informuje o tym, jak precyzyjny jest twój klasyfikator (ile instancji poprawnie klasyfikuje), a także jak solidny jest (nie brakuje znacznej liczby instancji).
Z wysoką precyzją, ale niskim poziomem przywołania, twój klasyfikator jest niezwykle dokładny, ale brakuje mu znacznej liczby przypadków, które są trudne do sklasyfikowania. To nie jest bardzo przydatne.
Spójrz na ten histogram. Zignoruj swój pierwotny cel.
W prawo, otrzymujesz wysoką precyzję, ale niskie wycofanie. Jeśli wybiorę tylko instancje z wynikiem powyżej 0,9, moje sklasyfikowane instancje będą wyjątkowo precyzyjne, jednak przegapię znaczną liczbę instancji. Eksperymenty wskazują, że tutaj najsłabszy punkt wynosi około 0,76, a miara F wynosi 0,87.
źródło
Miara F jest średnią harmoniczną twojej precyzji i przywołania. W większości sytuacji istnieje kompromis między precyzją a wycofaniem. Jeśli zoptymalizujesz swój klasyfikator, aby zwiększyć jeden, a niekorzystny dla drugiego, średnia harmonicznych szybko spadnie. Jest jednak największy, gdy zarówno precyzja, jak i przywołanie są równe.
Biorąc pod uwagę miary F wynoszące 0,4 i 0,8 dla klasyfikatorów, można oczekiwać, że tam, gdzie osiągnięto maksymalne wartości przy porównywaniu precyzji z wycofywaniem.
W celach wizualnych spójrz na ten rysunek z Wikipedii :
Miara F to H , A i B to przywołanie i precyzja. Możesz zwiększyć jeden, ale potem drugi maleje.
źródło
Wzór na miarę F (F1, przy beta = 1) jest taki sam, jak wzór dający równoważny opór złożony z dwóch rezystancji umieszczonych równolegle w fizyce (zapominając o współczynniku 2).
To może dać ci możliwą interpretację i możesz pomyśleć zarówno o oporności elektronicznej, jak i termicznej. Ta analogia zdefiniowałaby pomiar F jako równoważny opór utworzony przez czułość i precyzję ustawione równolegle.
Dla miary F maksymalna możliwa wartość to 1, a ty tracisz opór, gdy tylko jeden z dwóch traci opór (to znaczy, powiedz, uzyskaj wartość poniżej 1). Jeśli chcesz lepiej zrozumieć tę ilość i jej dynamikę, pomyśl o zjawisku fizycznym. Na przykład wydaje się, że miara F <= maks. (Czułość, precyzja).
źródło
źródło
źródło
Najbliższe intuicyjne znaczenie wyniku f1 jest postrzegane jako średnia przywołania i precyzji. Wyczyśćmy to dla ciebie:
W przypadku zadania klasyfikacyjnego być może planujesz zbudować klasyfikator z wysoką precyzją ORAZ przywoływaniem. Na przykład klasyfikator, który mówi, czy dana osoba jest uczciwa, czy nie.
Aby uzyskać precyzję, zazwyczaj możesz dokładnie powiedzieć, ile uczciwych ludzi jest w danej grupie. W tym przypadku, dbając o wysoką precyzję, zakładasz, że możesz błędnie zaklasyfikować kłamcę jako uczciwego, ale nie często. Innymi słowy, tutaj próbujesz zidentyfikować kłamcę ze szczerości jako całą grupę.
Przypomnijmy jednak, że naprawdę martwisz się, jeśli uważasz, że kłamca jest szczery. Dla ciebie będzie to wielka strata i duży błąd i nie chcesz tego więcej robić. Jest również w porządku, jeśli sklasyfikujesz kogoś uczciwego jako kłamcę, ale twój model nigdy nie powinien (lub przeważnie nie powinien) twierdzić, że kłamca jest uczciwy. Innymi słowy, tutaj skupiasz się na konkretnej klasie i starasz się nie pomylić z tym.
Weźmy teraz przypadek, w którym chcesz, aby Twój model (1) precyzyjnie identyfikował uczciwego od kłamcy (precyzja) (2) identyfikował każdą osobę z obu klas (przypomnij). Co oznacza, że wybierzesz model, który będzie działał dobrze w obu metrykach.
Podejmując decyzję o wyborze modelu, spróbujesz ocenić każdy model na podstawie średniej z dwóch wskaźników. Wynik F jest najlepszym, który może to opisać. Rzućmy okiem na wzór:
Przypomnij: p = tp / (tp + fp)
Przypomnij: r = tp / (tp + fn)
Wynik F: fscore = 2 / (1 / r + 1 / p)
Jak widać, im wyższa pamięć ORAZ precyzja, tym wyższy wynik F.
źródło
Wiedząc, że wynik F1 jest harmoniczną metodą precyzji i przypomnienia, poniżej znajduje się krótki opis na ich temat.
Powiedziałbym, że Recall to bardziej fałszywe negatywy. Tj. Wyższe Recall oznacza mniej FALSE NEGATYWÓW .
O ile oznacza mniej FN lub zero FN, twoje przewidywania modelu są naprawdę dobre.
Podczas gdy mając większą precyzję, jest mniej FALSE POSITIVESPrecision=tptp+fp
To samo tutaj, mniej lub zero fałszywych trafień oznacza, że przewidywanie modelu jest naprawdę dobre.
źródło