Jak działa intuicyjna obsługa regresji wektorowej?

25

Wszystkie przykłady SVM są związane z klasyfikacją. Nie rozumiem, w jaki sposób można użyć SVM do regresji (regressor wektora pomocniczego) w regresji.

Z mojego zrozumienia, SVM maksymalizuje margines między dwiema klasami, aby znaleźć optymalną hiperpłaszczyznę. Jak mogłoby to działać w przypadku problemu regresji?

AA
źródło

Odpowiedzi:

11

W skrócie: Maksymalizację marginesu można ogólnie postrzegać jako regularyzację rozwiązania poprzez minimalizację (co zasadniczo minimalizuje złożoność modelu), odbywa się to zarówno w klasyfikacji, jak i regresji. Ale w przypadku klasyfikacji minimalizacja ta odbywa się pod warunkiem, że wszystkie przykłady są poprawnie sklasyfikowane, aw przypadku regresji, pod warunkiem, że wartość wszystkich przykładów odbiega mniej niż wymagana dokładność od dla regresji .y ϵ f ( x )wyϵf(x)


Aby zrozumieć, jak przejść od klasyfikacji do regresji, pomaga zobaczyć, jak w obu przypadkach stosuje się tę samą teorię SVM, aby sformułować problem jako problem optymalizacji wypukłej. Spróbuję postawić obie strony obok siebie.

(Zignoruję zmienne luzu, które pozwalają na błędne klasyfikacje i odchylenia powyżej dokładności )ϵ

Klasyfikacja

W tym przypadku celem jest znalezienie funkcji gdzie dla przykładów pozytywnych i dla przykładów negatywnych. W tych warunkach chcemy zmaksymalizować margines (odległość między 2 czerwonymi słupkami), który jest niczym innym jak zminimalizowaniem pochodnej .f ( x ) 1 f ( x ) - 1 f = wf(x)=wx+bf(x)1f(x)1f=w

Intuicja stojąca za maksymalizacją marginesu jest taka, że ​​da nam to unikalne rozwiązanie problemu znalezienia (tzn. Odrzucamy na przykład niebieską linię), a także, że to rozwiązanie jest najbardziej ogólne w tych warunkach, tj. Działa jako regularyzacja . Można to postrzegać jako, że wokół granicy decyzji (gdzie przecinają się czerwone i czarne linie) niepewność klasyfikacji jest największa, a wybór najniższej wartości w tym regionie da najbardziej ogólne rozwiązanie.f ( x )f(x)f(x)

wprowadź opis zdjęcia tutaj

Punkty danych na 2 czerwonych słupkach są w tym przypadku wektorami podporowymi, odpowiadają one niezerowym mnożnikom Lagrange'a równej części warunków nierówności if ( x ) - 1f(x)1f(x)1

Regresja

W tym przypadku celem jest znalezienie funkcji (czerwona linia) pod warunkiem, że mieści się w wymaganej dokładności od wartości wartości (czarne słupki) każdy punkt danych, tj. gdzie to odległość między czerwoną a szarą linią. W tych warunkach ponownie chcemy zminimalizować , ponownie ze względu na regularyzację i uzyskać unikalne rozwiązanie w wyniku problemu optymalizacji wypukłej. Widać, jak minimalizowanie prowadzi do bardziej ogólnego przypadku, gdy ekstremalna wartośćf(x)=wx+bf(x)ϵy(x)|y(x)f(x)|ϵepsilonf(x)=www=0 oznaczałoby to brak relacji funkcjonalnej, co jest najbardziej ogólnym wynikiem, jaki można uzyskać z danych.

wprowadź opis zdjęcia tutaj

Punkty danych na 2 czerwonych słupkach są w tym przypadku wektorami podporowymi, odpowiadają one niezerowym mnożnikom Lagrange'a części równości warunku nierówności .|yf(x)|ϵ

Wniosek

Oba przypadki powodują następujący problem:

min12w2

Pod warunkiem, że:

  • Wszystkie przykłady są poprawnie sklasyfikowane (klasyfikacja)
  • Wartość wszystkich przykładów różni się mniej niż od . (Regresja)ϵ f ( x )yϵf(x)
Lejafar
źródło
0

W SVM dla problemu klasyfikacji faktycznie próbujemy oddzielić klasę tak daleko, jak to możliwe od linii oddzielającej (Hyperplane) i w przeciwieństwie do regresji logistycznej, tworzymy granicę bezpieczeństwa z obu stron hiperpłaszczyzny (różna między regresją logistyczną a klasyfikacją SVM jest w ich funkcja utraty). W końcu posiadanie oddzielonych różnych punktów danych, jak najdalej od hiperpłaszczyzny.

W SVM dla problemu regresji chcemy dopasować model, aby przewidzieć ilość na przyszłość. Dlatego chcemy, aby punkt danych (obserwacja) był jak najbliżej hiperpłaszczyzny, w przeciwieństwie do SVM do klasyfikacji. Regresja SVM odziedziczona z prostej regresji, takiej jak (Zwykły kwadrat co najmniej), na podstawie tej różnicy, że definiujemy zakres epsilonów z obu stron hiperpłaszczyzny, aby funkcja regresji była niewrażliwa na błąd, w przeciwieństwie do SVM do klasyfikacji, że definiujemy granicę, która jest bezpieczna do wykonania przyszła decyzja (prognoza). Ostatecznie,

morteza
źródło