Jak wytrenować SVM poprzez propagację wsteczną?

11

Zastanawiałem się, czy można wyszkolić maszynę SVM (powiedzmy liniową, aby ułatwić) za pomocą propagacji wstecznej?

Obecnie jestem w bloku drogowego, ponieważ mogę tylko myśleć o pisaniu wyjście klasyfikatora jako

f(x;θ,b)=sgn(θx(b+1))=sgn(g(x;θ,b))

Dlatego, gdy próbujemy obliczyć „przejście wstecz” (błąd propagacji), otrzymujemy od pochodnej to sgn(x)dsgn(x)

Ex=Ef(x;θ,b)f(x;θ,b)x=Ef(x;θ,b)sgn(g(x;θ,b))g(x;θ,b)g(x;θ,b)x=δdsgn(z)dzθ=δ0θ=0
sgn(x)
dsgn(x)dx={0if x02δ(x)if x=0

Podobnie okazuje się, że , co oznacza, że ​​nie możemy przekazać żadnych informacji ani wykonać aktualizacji gradientu!E/θ=E/b=0

Co daje?

StevieP
źródło

Odpowiedzi:

14

Masz rację, że jeśli spróbujesz bezpośrednio zoptymalizować dokładność maszyny SVM w przypadkach treningowych, zwaną także stratą 0-1, gradient zniknie. To dlatego ludzie tego nie robią. :)

Co starasz się zrobić, choć nie jest naprawdę jeszcze SVM; jest to raczej ogólny liniowy klasyfikator. SVM powstaje w szczególności po zastąpieniu funkcji utraty 0-1 wypukłym zastępczym znanym jako utrata zawiasu ; to sprowadza się do idei marży maximimization który jest rdzeń do idei SVM. Ta funkcja strat jest (prawie) zróżnicowana; jedynym problemem jest to, czy jakiekolwiek dane wyjściowe znajdują się dokładnie w punkcie zawiasowym, co (a) dzieje się z prawdopodobieństwem zerowym przy najbardziej uzasadnionych założeniach i (b) wtedy możesz po prostu użyć 0 lub 1 jako pochodnej (lub cokolwiek pomiędzy), w w którym przypadku technicznie wykonujesz zejście podporządkowane.

Ponieważ mówisz o propagacji wstecznej, założę się, że przynajmniej trochę znasz optymalizację sieci neuronowych. Ten sam problem występuje również w przypadku klasyfikatorów sieci neuronowych; dlatego ludzie używają tam również innych funkcji utraty.

Dougal
źródło
Więc jeśli dobrze cię rozumiem, naprawdę mówisz, że liniowy SVM można pomyśleć o 1-warstwowej NN - pojedyncza warstwa jest po prostu transformacją liniową, - z utratą zawiasu funkcjonować? Ax+b
StevieP,
1
Tak, liniowy SVM jest zasadniczo równoważny 1-warstwowej NN z liniową aktywacją w węźle wyjściowym i przeszkolony przez utratę zawiasu.
Dougal
5

Jeśli interesuje Cię tylko przypadek liniowy, lepszym wyborem jest regresja logistyczna (LR), ponieważ jest ona zarówno wypukła, jak i analityczna (możesz chcieć ją usunąć, jeśli jesteś zainteresowany regularyzacją). Ale kiedy wybierasz nieliniowy, właśnie tam pojawia się trudna część. W przypadkach nieliniowych nie ma rozsądnego sposobu, aby utrzymać rzeczy zarówno wypukłe, jak i analityczne, będziesz musiał poświęcić jedną z dwóch. W sieciach neuronowych poświęcasz wypukłość, aw svms poświęcasz holomorfizm.

ściśle mówiąc, nie ma różnicy między LR i SVM, svms po prostu przewidują, po której stronie linii leży punkt, LR biorą również pod uwagę, jak daleko leżą od granicy (na linii marginesu granicznego sigmoid daje prawdopodobieństwo 0,5 w przypadku LR). Maszyny SVM są zmuszone do tego kompromisu, ponieważ dla jąder nieliniowych intuicja odległości od zakrzywionej hiperpłaszczyzny (odmiana algebraiczna jest lepszym terminem) nie jest taka sama jak w przypadku liniowym, w rzeczywistości problem rozwiązania najkrótszej odległości od hiperpłaszczyzny do określonego punktu jest bardzo trudne (trudniejsze niż sam SVM), ale z drugiej strony Vapnik zdał sobie sprawę, że przewidzenie, po której stronie granicy leży punkt, jest bardzo łatwe jak w czasie O (1). To jest prawdziwy wgląd w SVM, co czyni go jedyną dostępną alternatywą optymalizacji wypukłej w teorii uczenia statystycznego. Ale mam wrażenie, że poświęcasz trochę za dużo, zarówno holomorfizm, jak i natura probabilistyczna zostają utracone. Ale w szczególnych przypadkach, takich jak trymowanie gruntu, maszyny SVM są bardzo niezawodne i są również w pełni możliwymi do sfalsyfikowania modelami naukowymi, w przeciwieństwie do ich niewypukłych alternatyw.

Tldr: tak, twierdzenie o wartości średniej przychodzi na ratunek w przypadku funkcji nieanalitycznych. W przypadkach wypukłych-nieanalitycznych, twierdzenie o wartości średniej zamienia się w nierówność wyznaczającą pewne warunki brzegowe dla sub-gradientów, które służą do wykonania przyzwoitego gradientu

Franck Dernoncourt
źródło
1
Co dla ciebie znaczy LR?
Sycorax mówi Przywróć Monikę
@ Regresja logistyczna Sycorax
Franck Dernoncourt