W skrócie: Maksymalizację marginesu można ogólnie postrzegać jako regularyzację rozwiązania poprzez minimalizację (co zasadniczo minimalizuje złożoność modelu), odbywa się to zarówno w klasyfikacji, jak i regresji. Ale w przypadku klasyfikacji minimalizacja ta odbywa się pod warunkiem, że wszystkie przykłady są poprawnie sklasyfikowane, aw przypadku regresji, pod warunkiem, że wartość wszystkich przykładów odbiega mniej niż wymagana dokładność od dla regresji .y ϵ f ( x )wyϵfa( x )
Aby zrozumieć, jak przejść od klasyfikacji do regresji, pomaga zobaczyć, jak w obu przypadkach stosuje się tę samą teorię SVM, aby sformułować problem jako problem optymalizacji wypukłej. Spróbuję postawić obie strony obok siebie.
(Zignoruję zmienne luzu, które pozwalają na błędne klasyfikacje i odchylenia powyżej dokładności )ϵ
Klasyfikacja
W tym przypadku celem jest znalezienie funkcji gdzie dla przykładów pozytywnych i dla przykładów negatywnych. W tych warunkach chcemy zmaksymalizować margines (odległość między 2 czerwonymi słupkami), który jest niczym innym jak zminimalizowaniem pochodnej .f ( x ) ≥ 1 f ( x ) ≤ - 1 f ′ = wfa( x ) = w x + bf(x)≥1f(x)≤−1f′=w
Intuicja stojąca za maksymalizacją marginesu jest taka, że da nam to unikalne rozwiązanie problemu znalezienia (tzn. Odrzucamy na przykład niebieską linię), a także, że to rozwiązanie jest najbardziej ogólne w tych warunkach, tj. Działa jako regularyzacja . Można to postrzegać jako, że wokół granicy decyzji (gdzie przecinają się czerwone i czarne linie) niepewność klasyfikacji jest największa, a wybór najniższej wartości w tym regionie da najbardziej ogólne rozwiązanie.f ( x )f(x)f(x)
Punkty danych na 2 czerwonych słupkach są w tym przypadku wektorami podporowymi, odpowiadają one niezerowym mnożnikom Lagrange'a równej części warunków nierówności if ( x ) ≤ - 1f(x)≥1f(x)≤−1
Regresja
W tym przypadku celem jest znalezienie funkcji (czerwona linia) pod warunkiem, że mieści się w wymaganej dokładności od wartości wartości (czarne słupki) każdy punkt danych, tj. gdzie to odległość między czerwoną a szarą linią. W tych warunkach ponownie chcemy zminimalizować , ponownie ze względu na regularyzację i uzyskać unikalne rozwiązanie w wyniku problemu optymalizacji wypukłej. Widać, jak minimalizowanie prowadzi do bardziej ogólnego przypadku, gdy ekstremalna wartośćf(x)=wx+bf(x)ϵy(x)|y(x)−f(x)|≤ϵepsilonf′(x)=www=0 oznaczałoby to brak relacji funkcjonalnej, co jest najbardziej ogólnym wynikiem, jaki można uzyskać z danych.
Punkty danych na 2 czerwonych słupkach są w tym przypadku wektorami podporowymi, odpowiadają one niezerowym mnożnikom Lagrange'a części równości warunku nierówności .|y−f(x)|≤ϵ
Wniosek
Oba przypadki powodują następujący problem:
min12w2
Pod warunkiem, że:
- Wszystkie przykłady są poprawnie sklasyfikowane (klasyfikacja)
- Wartość wszystkich przykładów różni się mniej niż od . (Regresja)ϵ f ( x )yϵf(x)