Mój kolega i ja staramy się obejść różnicę między regresją logistyczną a maszyną SVM. Najwyraźniej optymalizują różne funkcje celu. Czy SVM jest tak proste, jak stwierdzenie, że jest klasyfikatorem dyskryminującym, który po prostu optymalizuje utratę zawiasów? A może jest to bardziej skomplikowane? W jaki sposób wektory pomocnicze wchodzą w grę? Co ze zmiennymi luzu? Dlaczego nie możesz mieć głębokiej SVM tak, jak nie możesz mieć głębokiej sieci neuronowej z funkcjami aktywacji sigmoidalnej?
svm
logistic-regression
hinge-loss
Szymon
źródło
źródło
Odpowiedzi:
Oba są modelami dyskryminującymi, tak. Funkcja utraty regresji logistycznej jest koncepcyjnie funkcją wszystkich punktów. Prawidłowo sklasyfikowane punkty bardzo niewiele dodają do funkcji straty, dodając więcej, jeśli znajdują się blisko granicy. Punkty w pobliżu granicy są zatem ważniejsze dla straty i dlatego decydują o tym, jak dobra jest granica.
SVM wykorzystuje utratę zawiasów, która koncepcyjnie kładzie nacisk na punkty graniczne. Coś dalej niż najbliższe punkty nic nie przyczynia się do utraty z powodu „zawiasu” (maks.) Funkcji. Te najbliższe punkty to po prostu wektory pomocnicze. Dlatego faktycznie ogranicza się do wybrania granicy, która tworzy największy margines - odległość do najbliższego punktu. Teoria jest taka, że przypadek graniczny jest wszystkim, co naprawdę ma znaczenie dla uogólnienia.
Minusem jest to, że utrata zawiasów nie jest różnicowalna, ale oznacza to tylko, że potrzeba więcej matematyki, aby odkryć, jak zoptymalizować ją za pomocą mnożników Lagrange'a. Tak naprawdę nie obsługuje przypadku, w którym dane nie są liniowo rozdzielne. Zmienne luzu to sztuczka, która pozwala na włączenie tej możliwości do problemu optymalizacji.
Możesz użyć utraty zawiasu przy „głębokim uczeniu się”, np. Http://arxiv.org/pdf/1306.0239.pdf
źródło