Intuicja parametru regularyzacji w SVM

11

W jaki sposób zmiana parametru regularyzacji w SVM zmienia granicę decyzyjną dla nierozdzielalnego zestawu danych? Bardzo pomocna byłaby wizualna odpowiedź i / lub komentarz na temat zachowań ograniczających (w przypadku dużej i małej regularyzacji).

ASX
źródło

Odpowiedzi:

17

Parametr regularyzacji (lambda) służy jako stopień ważności, jaki przypisuje się błędnym klasyfikacjom. SVM stanowi kwadratowy problem optymalizacji, który ma na celu maksymalizację marginesu między obiema klasami i zminimalizowanie liczby brakujących klasyfikacji. Jednak w przypadku problemów nierozdzielnych, aby znaleźć rozwiązanie, należy złagodzić ograniczenie związane z błędną klasyfikacją, a dokonuje się tego poprzez ustawienie wspomnianej „regularyzacji”.

Tak więc, intuicyjnie, gdy lambda rośnie, tym mniej dozwolone są błędnie sklasyfikowane przykłady (lub najwyższa cena płacy w funkcji straty). Następnie, gdy lambda ma tendencję do nieskończoności, rozwiązanie zmierza do twardego marginesu (nie dopuszczaj do błędnej klasyfikacji). Kiedy lambda ma tendencję do 0 (nie będąc równą 0), tym bardziej dopuszczalne są niedopuszczalne klasyfikacje.

Zdecydowanie istnieje kompromis między tymi dwoma i zwykle mniejszymi jagnię, ale niezbyt małymi, dobrze uogólniającymi. Poniżej znajdują się trzy przykłady liniowej klasyfikacji SVM (binarnie).

Liniowa SVM Lambda = 0,1 Liniowa SVM Lambda = 1 wprowadź opis zdjęcia tutaj

W przypadku SVM z jądrem nieliniowym pomysł jest podobny. Biorąc to pod uwagę, dla wyższych wartości lambda istnieje większa możliwość przeregulowania, podczas gdy dla niższych wartości lambda istnieją większe możliwości niedopasowania.

Poniższe obrazy pokazują zachowanie jądra RBF, pozwalając parametrowi sigma ustawić na 1 i próbować lambda = 0,01 i lambda = 10

RBF Jądro SVM lambda = 0,01 RBF Jądro SVM lambda = 10

Można powiedzieć, że pierwsza cyfra, w której lambda jest niższa, jest bardziej „rozluźniona” niż druga cyfra, w której dane mają być dokładniej dopasowane.

(Slajdy prof. Oriola Pujola. Universitat de Barcelona)

Javierfdr
źródło
Ładne zdjęcia! Czy sam je stworzyłeś? Jeśli tak, może możesz udostępnić kod do ich narysowania?
Alexey Grigorev
ładna grafika. jeśli chodzi o dwa ostatnie => z tekstu, domyślnie można by pomyśleć, że pierwsze zdjęcie to lambda = 0,01, ale z mojego zrozumienia (i aby być spójnym z wykresem na początku), to ten z lambda = 10. ponieważ najwyraźniej jest to ten, który ma najmniej regularyzacji (najlepiej dopasowany, najbardziej zrelaksowany).
Wim 'titte' Thiels
^ to też rozumiem. Góra dwóch kolorowych wykresów wyraźnie pokazuje więcej konturów dla kształtu danych, więc musi to być wykres, na którym margines równania SVM był preferowany przy wyższej lambda. Dolna część dwóch kolorowych wykresów pokazuje bardziej swobodną klasyfikację danych (mały skupisko niebieskiego w pomarańczowym obszarze), co oznacza, że ​​maksymalizacja marginesu nie była preferowana, a nie minimalizowanie poziomu błędu w klasyfikacji.
Brian Ambielli