Zastanawiałem się, czy można wyszkolić maszynę SVM (powiedzmy liniową, aby ułatwić) za pomocą propagacji wstecznej?
Obecnie jestem w bloku drogowego, ponieważ mogę tylko myśleć o pisaniu wyjście klasyfikatora jako
fa( x ; θ , b ) = sgn ( θ ⋅ x - ( b + 1 ) ) = sgn ( g( x ; θ , b ) )
Dlatego, gdy próbujemy obliczyć „przejście wstecz” (błąd propagacji), otrzymujemy
od pochodnej to
sgn(x)dsgn(x)
∂mi∂x= ∂mi∂fa( x ; θ , b )∂fa( x ; θ , b )x= ∂mi∂fa( x ; θ , b )∂sgn ( g( x ; θ , b ) )∂sol( x ; θ , b )∂sol( x ; θ , b )∂x= δresgn ( z)rezθ= δ⋅ 0 ⋅ θ= 0
sgn ( x )resgn ( x )rex= { 02 δ( x )jeśli x ≠ 0jeśli x = 0
Podobnie okazuje się, że , co oznacza, że nie możemy przekazać żadnych informacji ani wykonać aktualizacji gradientu!∂mi/ ∂θ = ∂mi/ ∂b = 0
Co daje?
Jeśli interesuje Cię tylko przypadek liniowy, lepszym wyborem jest regresja logistyczna (LR), ponieważ jest ona zarówno wypukła, jak i analityczna (możesz chcieć ją usunąć, jeśli jesteś zainteresowany regularyzacją). Ale kiedy wybierasz nieliniowy, właśnie tam pojawia się trudna część. W przypadkach nieliniowych nie ma rozsądnego sposobu, aby utrzymać rzeczy zarówno wypukłe, jak i analityczne, będziesz musiał poświęcić jedną z dwóch. W sieciach neuronowych poświęcasz wypukłość, aw svms poświęcasz holomorfizm.
ściśle mówiąc, nie ma różnicy między LR i SVM, svms po prostu przewidują, po której stronie linii leży punkt, LR biorą również pod uwagę, jak daleko leżą od granicy (na linii marginesu granicznego sigmoid daje prawdopodobieństwo 0,5 w przypadku LR). Maszyny SVM są zmuszone do tego kompromisu, ponieważ dla jąder nieliniowych intuicja odległości od zakrzywionej hiperpłaszczyzny (odmiana algebraiczna jest lepszym terminem) nie jest taka sama jak w przypadku liniowym, w rzeczywistości problem rozwiązania najkrótszej odległości od hiperpłaszczyzny do określonego punktu jest bardzo trudne (trudniejsze niż sam SVM), ale z drugiej strony Vapnik zdał sobie sprawę, że przewidzenie, po której stronie granicy leży punkt, jest bardzo łatwe jak w czasie O (1). To jest prawdziwy wgląd w SVM, co czyni go jedyną dostępną alternatywą optymalizacji wypukłej w teorii uczenia statystycznego. Ale mam wrażenie, że poświęcasz trochę za dużo, zarówno holomorfizm, jak i natura probabilistyczna zostają utracone. Ale w szczególnych przypadkach, takich jak trymowanie gruntu, maszyny SVM są bardzo niezawodne i są również w pełni możliwymi do sfalsyfikowania modelami naukowymi, w przeciwieństwie do ich niewypukłych alternatyw.
Tldr: tak, twierdzenie o wartości średniej przychodzi na ratunek w przypadku funkcji nieanalitycznych. W przypadkach wypukłych-nieanalitycznych, twierdzenie o wartości średniej zamienia się w nierówność wyznaczającą pewne warunki brzegowe dla sub-gradientów, które służą do wykonania przyzwoitego gradientu
źródło