Optymalna hiperpłaszczyzna w SVM jest zdefiniowana jako:
gdzie oznacza próg. Jeśli mamy jakieś mapowanie które mapuje przestrzeń wejściową na jakąś przestrzeń , możemy zdefiniować SVM w przestrzeni , gdzie optymalna hiperplantu będzie:
Zawsze możemy jednak zdefiniować mapowanie tak aby , , a następnie optymalna hiperplane zostanie zdefiniowana jako
Pytania:
Dlaczego wiele artykułów używa skoro już mają już parametry mapowania i oszacowania i folder oddzielnie?
Czy istnieje problem ze zdefiniowaniem SVM jako s.t. \ y_n \ mathbf w \ cdot \ mathbf \ phi (\ mathbf x_n) \ geq 1, \ forall n i oszacuj tylko parametr wektor \ mathbf w , zakładając, że zdefiniujemy \ phi_0 (\ mathbf x) = 1, \ forall \ mathbf x ?
Jeśli definicja SVM z pytania 2. jest możliwa, będziemy mieli a próg będzie po prostu , którego nie będziemy traktować osobno. Więc nigdy nie będziemy używać formuły takiej jak do oszacowania podstawie jakiegoś wektora wsparcia . Dobrze?
Odpowiedzi:
Dlaczego stronniczość jest ważna?
Termin odchylenia jest rzeczywiście specjalnym parametrem w SVM. Bez tego klasyfikator zawsze przejdzie przez pochodzenie. Tak więc SVM nie daje ci hiperpłaszczyzny oddzielającej z maksymalnym marginesem, jeśli nie przejdzie przez początek, chyba że masz pojęcie błędu.b
Poniżej znajduje się wizualizacja problemu błędu systematycznego. SVM wyszkolony z (bez) terminem polaryzacji pokazano po lewej (po prawej). Mimo że obie maszyny SVM są szkolone na tych samych danych , wyglądają one jednak zupełnie inaczej.
Dlaczego odchylenie należy traktować osobno?
Jak zauważył Ben DAI , błąd systematyczny należy traktować osobno ze względu na regularyzację. SVM maksymalizuje rozmiar marginesu, który wynosi (lub zależności od tego, jak go zdefiniujesz).b 1||w||2 2||w||2
Maksymalizacja marginesu jest taka sama jak minimalizacja . Jest to również nazywane terminem regularyzacji i może być interpretowane jako miara złożoności klasyfikatora. Jednak nie chcesz regulować terminu błędu, ponieważ błąd powoduje przesunięcie wyników klasyfikacji w górę lub w dół o tę samą wartość dla wszystkich punktów danych . W szczególności odchylenie nie zmienia kształtu klasyfikatora ani jego wielkości marginesu. W związku z tym, ...||w||2
W praktyce jednak łatwiej jest po prostu wepchnąć odchylenie do wektora cech zamiast zajmować się tym jako szczególny przypadek.
Uwaga: kiedy przesuwasz odchylenie do funkcji cechy, najlepiej jest ten wymiar wektora cechy na dużą liczbę, np. , aby zminimalizować skutki uboczne regularyzacji odchylenia.ϕ0(x)=10
źródło
Czasami ludzie po prostu pomijają przechwytywanie w SVM, ale myślę, że powodem może być karanie przechwycenia, aby je pominąć. to znaczy,
możemy zmodyfikować dane i , aby pominąć przechwycenie Jak ty powiedział, podobna technika może być zastosowana w wersji jądra.x^=(1,x) w^=(w0,wT)T
Jeśli jednak umieścimy przecięcie w wagach, funkcja celu będzie się nieco różnić od pierwotnej. Dlatego nazywamy „karać”.
źródło
Oprócz wyżej wymienionych przyczyn odległość punktu do hiperpłaszczyzny zdefiniowanej przez nachylenie i punkt przecięcia wynosi W ten sposób koncepcja marginesu w SVM została przeniesiona. Jeśli zmienisz aby zawierał wyraz przechwytujący , na normę wpłynie rozmiar przechwytywania, co spowoduje optymalizację SVM w kierunku małego przechwytywania, co w wielu przypadkach nie ma sensu.x θ b |θTx+b|||θ|| θ b θ
źródło