Co to jest próg optymalny F1? Jak to obliczyć?

13

Użyłem funkcji h2o.glm () w R, która daje tabelę zdarzeń w wyniku wraz z innymi statystykami. Tabela awaryjna nosi tytuł „ Tabulator krzyżowy oparty na optymalnym progu F1

Wikipedia definiuje Wynik F1 lub Wynik F jako średnią harmoniczną precyzji i przywołania. Ale nie można znaleźć Precyzji i Przywołania tylko wtedy, gdy wynik przewidywanych wartości regresji logistycznej (na przykład) zostanie przekształcony na binarny przy użyciu odcięcia.

Teraz przez odcięcie pamiętam, jaki jest związek między wynikiem F1 a optymalnym progiem. Jak obliczany jest optymalny próg? Jak obliczany jest optymalny próg F1?

Przepraszam, jeśli coś przeoczyłem, jestem nowy w statystykach tutaj.

SoakingHummer
źródło

Odpowiedzi:

22

Mój pierwszy artykuł na temat uczenia maszynowego napisałem na ten temat. W nim stwierdziliśmy, że kiedy twój klasyfikator wyprowadza skalibrowane prawdopodobieństwa (tak jak powinno to być w przypadku regresji logistycznej), optymalny próg wynosi około 1/2 wyniku F1, który osiąga. To daje ci trochę intuicji. Optymalny próg nigdy nie będzie większy niż 0,5. Jeśli twoje F1 to 0,5, a próg to 0,5, powinieneś spodziewać się poprawy F1 przez obniżenie progu. Z drugiej strony, jeśli F1 wynosiłoby 0,5, a próg wynosił 0,1, prawdopodobnie należy zwiększyć próg, aby poprawić F1.

Artykuł ze wszystkimi szczegółami i dyskusją na temat tego, dlaczego F1 może, ale nie musi być dobrym środkiem do optymalizacji (zarówno w przypadku pojedynczego, jak i wielopłaszczyznowego), można znaleźć tutaj:

https://arxiv.org/abs/1402.1892

Przykro mi, że ten post zajął 9 miesięcy. Mam nadzieję, że informacje nadal będą przydatne!

Zachary Chase Lipton
źródło
1
Czy F1 może być> 1? Jeśli masz 90% A i 10% ~ A, myślę, że chcesz próg> 5.
gung - Przywróć Monikę
1
Cześć @gung. Nie, z definicji F1 = 2 * p * r / (p + r) i, podobnie jak wszystkie miary F-beta, ma zakres [0,1]. Nierównowaga klasy nie zmienia zakresu wyniku F1. W przypadku niektórych aplikacji rzeczywiście może być potrzebne wykonanie prognoz z progiem wyższym niż 0,5. W szczególności dzieje się tak, gdy myślisz, że fałszywie pozytywne są gorsze niż fałszywe negatywne. Ale taki próg nie zoptymalizowałby wyniku F1. Aby zrozumieć, dlaczego, wynik F1 został opracowany w kontekście wyszukiwania informacji. W tych ustawieniach klasa dodatnia jest rzadka i zazwyczaj fałszywie dodatnie nie są tak kosztowne jak fałszywe ujemne.
Zachary Chase Lipton
@ZacharyChaseLipton Załóżmy, że mam zestaw danych podzielony na pociąg / val / test. Dla klasyfikatora, który generuje prawdopodobieństwo, wybrałbym optymalny próg F1 na zestawie walidacji, badając próg, który daje najlepszą F1. Wydaje się to rozsądne, ponieważ wybór progu wydaje się podobny do wyboru najlepszego modelu. Czy to jest właściwe?
pir
Co więcej, załóżmy, że mam klasyfikator, który nie wyprowadza prawdopodobieństwa (jak SVM). Jak w takim razie zoptymalizowałbyś F1 na zestawie sprawdzania poprawności?
pir