SVM do klasyfikacji mają dla mnie intuicyjny sens: rozumiem, jak minimalizacja daje maksymalny margines. Nie rozumiem jednak tego celu w kontekście regresji. Różne teksty ( tu i tutaj ) opisują to jako maksymalizujące „płaskość”. Dlaczego mielibyśmy to zrobić? Co w regresji odpowiada koncepcji „marginesu”?
Oto kilka prób odpowiedzi, ale żadne z nich tak naprawdę nie pomogło mi zrozumieć.
regression
svm
Yang
źródło
źródło
Odpowiedzi:
Jednym ze sposobów, w jaki myślę o płaskości, jest to, że sprawia, że moje przewidywania są mniej wrażliwe na zakłócenia funkcji. To znaczy, jeśli buduję model w postaci którym mój wektor cech został już znormalizowany, to mniejsze wartości w oznaczają, że mój model jest mniej wrażliwy na błędy pomiaru / losowe szoki / niestacjonarność funkcji, . Biorąc pod uwagę dwa modele ( tj. Dwie możliwe wartości ), które równie dobrze wyjaśniają dane, wolę ten „bardziej płaski”.
Możesz także myśleć o regresji Ridge'a jako o osiągnięciu tego samego bez sztuczki jądra lub sformułowania regresji SVM „tube”.
edycja : W odpowiedzi na komentarze @ Yang, kilka dodatkowych wyjaśnień:
źródło
shabbychef podał bardzo jasne wyjaśnienie z perspektywy złożoności modelu. Spróbuję zrozumieć ten problem z innego punktu widzenia, na wypadek, gdyby mógł komukolwiek pomóc.
Zasadniczo chcemy zmaksymalizować margines w SVC. To samo dotyczy SVR, a my chcemy zmaksymalizować błąd prognozowania ze zdefiniowaną precyzją dla lepszego uogólnienia. Jeśli zminimalizujemy błąd prognozy zamiast zmaksymalizować, wynik prognozy dla nieznanych danych jest bardziej prawdopodobny. Pomyślmy o „maksymalizacji błędu prognozowania” w przypadku jednowymiarowym.e
W przypadku jednowymiarowym naszym celem jest maksymalizacja odległości od wszystkich punktów do linii trendu wewnątrz . Zauważ, że ustawiliśmy ograniczenie precyzji na , abyśmy mogli maksymalizować odległość, a nie minimalizować . Następnie przyjrzyjmy się bardzo prostemu równaniu odległości od punktu do linii.y = ω x + b e e(xi,yi) y=ωx+b e e
W tej chwili licznik jest ograniczony do . Aby zmaksymalizować odległość, staramy się zminimalizować .ωe ω
Każdy może z łatwością rozszerzyć jednowymiarowy przypadek na przypadek N-wymiarowy, ponieważ równanie odległości zawsze będzie odległością euklidesową .
Dodatkowo możemy mieć recenzję problemu optymalizacji w SVR do porównania [1].
Dzięki.
[1] Smola, A. i B. Schölkopf. Samouczek dotyczący regresji wektora wsparcia. Statystyka i informatyka, t. 14, nr 3, sierpnia 2004, s. 199–222.
źródło
Przynajmniej nie sądzę, że minimalizowanie ma coś wspólnego z marginesem koncepcji, jak w ustawieniu klasyfikacji SVM. Służy on zupełnie innemu celowi, który jest dobrze wyjaśniony przez powyższe dwa posty, tj. Zmniejszeniu złożoności modelu i uniknięciu przeregulowania.θ
źródło