Jak wytrenować SVM poprzez propagację wsteczną?

11

Zastanawiałem się, czy można wyszkolić maszynę SVM (powiedzmy liniową, aby ułatwić) za pomocą propagacji wstecznej?

Obecnie jestem w bloku drogowego, ponieważ mogę tylko myśleć o pisaniu wyjście klasyfikatora jako

f (x; θ, b) = sgn (θ \cdot x - (b + 1)) = sgn (g (x; θ, b))

$f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b))$

Dlatego, gdy próbujemy obliczyć „przejście wstecz” (błąd propagacji), otrzymujemy od pochodnej to

\begin{aligned} \frac{\partial E}{\partial x} & = \frac{\partial E}{\partial f (x; θ, b)} \frac{\partial f (x; θ, b)}{x} \\ = \frac{\partial E}{\partial f (x; θ, b)} \frac{\partial sgn (g (x; θ, b))}{\partial g (x; θ, b)} \frac{\partial g (x; θ, b)}{\partial x} \\ = δ \frac{d sgn (z)}{d z} θ \\ = δ \cdot 0 \cdot θ \\ = 0 \end{aligned}

$\begin{align} \frac{\partial E}{\partial \mathbf{x}} &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial f(\mathbf{x};\theta,b)}{\mathbf{x}} \\ &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial \text{sgn}(g(\mathbf{x};\theta,b))}{\partial g(\mathbf{x};\theta,b)} \frac{\partial g(\mathbf{x};\theta,b)}{\partial \mathbf{x}} \\ &= \delta \, \frac{d \text{sgn}(z)}{dz} \, \theta \\ &= \delta \cdot 0 \cdot \theta \\ &= \mathbf{0} \end{align}$

sgn (x)

$\text{sgn}(x)$

\frac{d sgn (x)}{d x} = {\begin{cases} 0 & if x \neq 0 \\ 2 δ (x) & if x = 0 \end{cases}

$\frac{d\text{sgn}(x)}{dx} = \begin{cases} 0 &\text{if $x \neq 0$}\\ 2\delta(x) &\text{if $x=0$} \end{cases}$

Podobnie okazuje się, że , co oznacza, że nie możemy przekazać żadnych informacji ani wykonać aktualizacji gradientu! $\partial E/\partial \theta = \partial E /\partial b = 0$

Co daje?

machine-learning neural-networks svm gradient-descent backpropagation StevieP
źródło

14

Masz rację, że jeśli spróbujesz bezpośrednio zoptymalizować dokładność maszyny SVM w przypadkach treningowych, zwaną także stratą 0-1, gradient zniknie. To dlatego ludzie tego nie robią. :)

Co starasz się zrobić, choć nie jest naprawdę jeszcze SVM; jest to raczej ogólny liniowy klasyfikator. SVM powstaje w szczególności po zastąpieniu funkcji utraty 0-1 wypukłym zastępczym znanym jako utrata zawiasu ; to sprowadza się do idei marży maximimization który jest rdzeń do idei SVM. Ta funkcja strat jest (prawie) zróżnicowana; jedynym problemem jest to, czy jakiekolwiek dane wyjściowe znajdują się dokładnie w punkcie zawiasowym, co (a) dzieje się z prawdopodobieństwem zerowym przy najbardziej uzasadnionych założeniach i (b) wtedy możesz po prostu użyć 0 lub 1 jako pochodnej (lub cokolwiek pomiędzy), w w którym przypadku technicznie wykonujesz zejście podporządkowane.

Ponieważ mówisz o propagacji wstecznej, założę się, że przynajmniej trochę znasz optymalizację sieci neuronowych. Ten sam problem występuje również w przypadku klasyfikatorów sieci neuronowych; dlatego ludzie używają tam również innych funkcji utraty.

Dougal
źródło

Więc jeśli dobrze cię rozumiem, naprawdę mówisz, że liniowy SVM można pomyśleć o 1-warstwowej NN - pojedyncza warstwa jest po prostu transformacją liniową, - z utratą zawiasu funkcjonować?

A x + b

$A \mathbf{x} + b$

StevieP,

1

Tak, liniowy SVM jest zasadniczo równoważny 1-warstwowej NN z liniową aktywacją w węźle wyjściowym i przeszkolony przez utratę zawiasu.

Dougal

5

Jeśli interesuje Cię tylko przypadek liniowy, lepszym wyborem jest regresja logistyczna (LR), ponieważ jest ona zarówno wypukła, jak i analityczna (możesz chcieć ją usunąć, jeśli jesteś zainteresowany regularyzacją). Ale kiedy wybierasz nieliniowy, właśnie tam pojawia się trudna część. W przypadkach nieliniowych nie ma rozsądnego sposobu, aby utrzymać rzeczy zarówno wypukłe, jak i analityczne, będziesz musiał poświęcić jedną z dwóch. W sieciach neuronowych poświęcasz wypukłość, aw svms poświęcasz holomorfizm.

ściśle mówiąc, nie ma różnicy między LR i SVM, svms po prostu przewidują, po której stronie linii leży punkt, LR biorą również pod uwagę, jak daleko leżą od granicy (na linii marginesu granicznego sigmoid daje prawdopodobieństwo 0,5 w przypadku LR). Maszyny SVM są zmuszone do tego kompromisu, ponieważ dla jąder nieliniowych intuicja odległości od zakrzywionej hiperpłaszczyzny (odmiana algebraiczna jest lepszym terminem) nie jest taka sama jak w przypadku liniowym, w rzeczywistości problem rozwiązania najkrótszej odległości od hiperpłaszczyzny do określonego punktu jest bardzo trudne (trudniejsze niż sam SVM), ale z drugiej strony Vapnik zdał sobie sprawę, że przewidzenie, po której stronie granicy leży punkt, jest bardzo łatwe jak w czasie O (1). To jest prawdziwy wgląd w SVM, co czyni go jedyną dostępną alternatywą optymalizacji wypukłej w teorii uczenia statystycznego. Ale mam wrażenie, że poświęcasz trochę za dużo, zarówno holomorfizm, jak i natura probabilistyczna zostają utracone. Ale w szczególnych przypadkach, takich jak trymowanie gruntu, maszyny SVM są bardzo niezawodne i są również w pełni możliwymi do sfalsyfikowania modelami naukowymi, w przeciwieństwie do ich niewypukłych alternatyw.

Tldr: tak, twierdzenie o wartości średniej przychodzi na ratunek w przypadku funkcji nieanalitycznych. W przypadkach wypukłych-nieanalitycznych, twierdzenie o wartości średniej zamienia się w nierówność wyznaczającą pewne warunki brzegowe dla sub-gradientów, które służą do wykonania przyzwoitego gradientu

Franck Dernoncourt
źródło

1

Co dla ciebie znaczy LR?

Sycorax mówi Przywróć Monikę

@ Regresja logistyczna Sycorax

Franck Dernoncourt

Jak wytrenować SVM poprzez propagację wsteczną?

Odpowiedzi: