Wiemy, że niektóre funkcje celu są łatwiejsze do optymalizacji, a niektóre są trudne. I jest wiele funkcji utraty, których chcemy używać, ale trudnych w użyciu, na przykład utrata 0-1. Dlatego znajdziemy kilka funkcji utraty proxy do wykonania pracy. Na przykład używamy utraty zawiasu lub straty logistycznej do „przybliżenia” utraty 0-1.
Poniższy wątek pochodzi z książki PRML Chrisa Bishopa . Utrata zawiasu jest wykreślona na niebiesko, Utrata kłody na czerwono, Utrata kwadratu na zielono, a błąd 0/1 na czarno.
Rozumiem, dlaczego mamy taki projekt (w przypadku zawiasu i utraty logistyki), ponieważ chcemy, aby funkcja celu była wypukła.
Patrząc na utratę zawiasów i utratę logistyki, bardziej karze za silnie błędnie sklasyfikowane instancje , a co ciekawe, karane są również poprawnie sklasyfikowane instancje, jeśli są słabo sklasyfikowane . To naprawdę dziwny projekt.
Moje pytanie brzmi: jakie ceny musimy zapłacić, używając różnych „funkcji utraty proxy”, takich jak utrata zawiasów i utrata logistyki?
Odpowiedzi:
Niektóre z moich myśli mogą być niepoprawne.
Wypukłość jest z pewnością przyjemną właściwością, ale myślę, że najważniejszym powodem jest to, że chcemy, aby funkcja celu miała pochodne niezerowe , abyśmy mogli wykorzystać pochodne do jej rozwiązania. Funkcja celu może być niewypukła, w takim przypadku często zatrzymujemy się na lokalnych optykach lub punktach siodłowych.
Myślę, że taki projekt radzi modelowi nie tylko dokonywać właściwych prognoz, ale także być pewnym ich prognoz. Jeśli nie chcemy, aby poprawnie sklasyfikowane instancje zostały ukarane, możemy na przykład przesunąć utratę zawiasu (niebieską) w lewo o 1, aby nie otrzymywały żadnej straty. Ale wierzę, że często prowadzi to do gorszego wyniku w praktyce.
IMO, wybierając różne funkcje strat, wprowadzamy do modelu różne założenia. Na przykład utrata regresji logistycznej (czerwona) zakłada rozkład Bernoulliego, utrata MSE (zielona) zakłada szum Gaussa.
Po przykładzie najmniejszych kwadratów vs. regresji logistycznej w PRML dodałem utratę zawiasów dla porównania.
Jak pokazano na rysunku, utrata zawiasów i regresja logistyczna / entropia krzyżowa / prawdopodobieństwo-log / softplus dają bardzo bliskie wyniki, ponieważ ich funkcje celu są bliskie (rysunek poniżej), podczas gdy MSE jest ogólnie bardziej wrażliwy na wartości odstające. Utrata zawiasu nie zawsze ma unikalne rozwiązanie, ponieważ nie jest ściśle wypukła.
Jakkolwiek jedną ważną właściwością utraty zawiasów jest to, że punkty danych daleko od granicy decyzji nic nie przyczyniają się do utraty, rozwiązanie będzie takie samo po usunięciu punktów.
Pozostałe punkty nazywane są wektorami pomocniczymi w kontekście SVM. Natomiast SVM stosuje termin regulizujący, aby zapewnić maksymalną marżę i unikalne rozwiązanie.
źródło
Publikowanie spóźnionej odpowiedzi, ponieważ istnieje bardzo prosta odpowiedź, o której jeszcze nie wspomniano.
Gdy zamienisz funkcję wypukłości niewypukłej 0-1 na wypukłą surogat (np. Utratę zawiasu), w rzeczywistości rozwiązujesz teraz inny problem niż ten, który chciałeś rozwiązać (czyli zminimalizować liczbę błędów klasyfikacji). Więc zdobyć obliczeniowej ustępliwość (problem staje się wypukłe, dzięki czemu można go rozwiązać skutecznie za pomocą narzędzi wypukłej Optimization), ale w ogólnym przypadku jest faktycznie w żaden sposób odnosić się do błędu klasyfikatora, który minimalizuje „proxy” strat oraz błąd klasyfikatora, który minimalizuje straty 0-1 . Jeśli to, na czym naprawdę Ci zależało, to minimalizowanie liczby błędnych klasyfikacji, twierdzę, że to naprawdę duża cena do zapłacenia.
Należy wspomnieć, że to stwierdzenie jest najgorszy , w tym sensie, że odnosi się do dowolnej dystrybucji . W przypadku niektórych „ładnych” dystrybucji istnieją wyjątki od tej reguły. Kluczowym przykładem są rozkłady danych, które mają duże marginesy na granicy decyzji - patrz Twierdzenie 15.4 w Shalev-Shwartz, Shai i Shai Ben-David. Zrozumienie uczenia maszynowego: od teorii do algorytmów. Prasa uniwersytecka Cambridge, 2014.D
źródło
W idealnym przypadku funkcja straty powinna odzwierciedlać rzeczywistą stratę poniesioną przez biznes. Na przykład, jeśli klasyfikujesz towary uszkodzone, utrata błędnej klasyfikacji może wyglądać następująco:
źródło