Wybór między funkcjami strat dla klasyfikacji binarnej

18

Pracuję w dziedzinie problemów, w której ludzie często zgłaszają ROC-AUC lub AveP (średnia precyzja). Jednak ostatnio znalazłem artykuły, które zamiast tego optymalizują straty logów , podczas gdy jeszcze inni zgłaszają utratę zawiasów .

Rozumiem, w jaki sposób obliczane są te wskaźniki, ale trudno mi zrozumieć kompromisy między nimi i co jest dobre na to, co dokładnie.

Jeśli chodzi o ROC-AUC vs. Precision-Recall, ten wątek omawia, w jaki sposób maksymalizację ROC-AUC można postrzegać jako stosowanie kryteriów optymalizacji strat, które karają „ranking prawdziwego ujemnego co najmniej tak dużego, jak prawdziwego pozytywnego” (zakładając, że wyższy wyniki odpowiadają wynikom pozytywnym). Również ten drugi wątek zapewnia również pomocne omówienie ROC AUC w przeciwieństwie do Precyzyjnie Przywołaj metryk.

Jednak dla jakiego rodzaju problemów preferowana byłaby utrata logów , na przykład ROC-AUC , AveP lub utrata zawiasu ? Co najważniejsze, jakie pytania należy zadać na temat problemu, wybierając między tymi funkcjami strat do klasyfikacji binarnej?

Josh
źródło

Odpowiedzi:

8

Najnowszym odniesieniem w tej sprawie jest [1]. Zasadniczo pokazuje, że wszystkie określone przez ciebie funkcje strat będą zbieżne z klasyfikatorem Bayesa, z dużymi szybkościami.

Wybór między nimi dla próbek skończonych może wynikać z kilku różnych argumentów:

  1. Jeśli chcesz odzyskać prawdopodobieństwa zdarzeń (i nie tylko klasyfikacje), logistyczna utrata logarytmiczna lub jakikolwiek inny uogólniony model liniowy (regresja probitowa, regresja komplementarno-logarytmiczna ...) jest naturalnym kandydatem.
  2. Jeśli celujesz tylko w klasyfikację, SVM może być preferowanym wyborem, ponieważ celuje ona jedynie w obserwacje klasyfikacji i ignoruje odległe obserwacje, łagodząc w ten sposób wpływ prawdziwości przyjętego modelu liniowego.
  3. Jeśli nie masz wielu obserwacji, przewaga w 2 może być wadą.
  4. Mogą występować różnice obliczeniowe: zarówno w podanym problemie optymalizacji, jak i w konkretnej implementacji, której używasz.
  5. Podsumowując - możesz po prostu wypróbować je wszystkie i wybrać najlepszego wykonawcę.

[1] Bartlett, Peter L, Michael I Jordan i Jon D. McAuliffe. „Wypukłość, klasyfikacja i granice ryzyka”. Journal of American Statistics Association 101, nr. 473 (marzec 2006): 138–56. doi: 10.1198 / 016214505000000907.

JohnRos
źródło