Dlaczego błędne jest interpretowanie SVM jako prawdopodobieństwa klasyfikacji?

11

Rozumiem, że SVM jest bardzo podobny do regresji logistycznej (LR), tj. Ważona suma funkcji jest przekazywana do funkcji sigmoidalnej w celu uzyskania prawdopodobieństwa przynależności do klasy, ale zamiast utraty entropii krzyżowej (logistycznej) funkcja, trening odbywa się przy użyciu utraty zawiasu. Zaletą stosowania utraty zawiasu jest to, że można wykonywać różne sztuczki numeryczne, aby zwiększyć wydajność jądra. Wadą jest jednak to, że wynikowy model ma mniej informacji niż odpowiadający mu model LR. Na przykład bez jądra (przy użyciu jądra liniowego) granica decyzyjna SVM nadal znajdowałaby się w tym samym miejscu, w którym LR dałoby prawdopodobieństwo 0,5, ALE nie można powiedzieć, jak szybko prawdopodobieństwo przynależności do klasy zanika od granica decyzji.

Moje dwa pytania to:

  1. Czy powyższa interpretacja jest poprawna?
  2. W jaki sposób użycie utraty zawiasu powoduje, że interpretacja wyników SVM jako prawdopodobieństwa jest nieprawidłowa?
GingerBadger
źródło

Odpowiedzi:

8

xββ0y=sign(βx+β0)β,β0

W przypadku liniowego SVM (bez jądra) granica decyzji będzie podobna do modelu regresji logistycznej, ale może różnić się w zależności od siły regularyzacji zastosowanej do dopasowania SVM. Ponieważ SVM i LR rozwiązują różne problemy związane z optymalizacją, nie ma gwarancji, że istnieją identyczne rozwiązania dla granicy decyzji.

Istnieje wiele zasobów na temat SVM, które pomogą wyjaśnić rzeczy: oto jeden przykład, a drugi .

Higgs Broson
źródło
Bozon higgsa Jest to bardzo pomocne, dziękuję! Kilka dodatkowych pytań: (1) czy mógłbyś podać intuicyjny przykład, w którym granica decyzji SVM NIE byłaby podobna do LR ?, (2) jest jedną z liniowych SVM i LR ogólnie lepszych od innych, czy też istnieją rodzaje problemów, dla których jeden z nich jest lepszy?
GingerBadger
2
Alex: ogólnie, liniowe SVM i LR generalnie działają w praktyce porównywalnie. Jeśli potrzebujesz wyjścia probabilistycznego, użyj LR. Jeśli zależy ci tylko na zajęciach, możesz użyć jednego z nich. Jeśli chcesz przykład, w którym granice decyzji byłyby bardzo różne, możesz sobie wyobrazić liniowo rozdzielalny zestaw danych z garstką punktów niewłaściwej klasy, daleko od granicy decyzji. Wartości odstające zbliżyłyby do siebie granicę regresji logistycznej, ale gdybyś miał maszynę SVM o wystarczająco dużym terminie regularyzacji, skutecznie zignorowałby wartości odstające.
higgs broson