Co dzieje się, gdy szkolimy podstawową maszynę wektorów nośnych (jądro liniowe i brak marginesu miękkiego) na danych nieliniowo rozdzielalnych? Problem optymalizacji jest niewykonalny, więc co powraca algorytm minimalizacji?
Co dzieje się, gdy szkolimy podstawową maszynę wektorów nośnych (jądro liniowe i brak marginesu miękkiego) na danych nieliniowo rozdzielalnych? Problem optymalizacji jest niewykonalny, więc co powraca algorytm minimalizacji?
Myślę, że podstawowa maszyna wektorowa wsparcia oznacza twardą maszynę SVM. Przejrzyjmy więc:
Krótko mówiąc, chcemy znaleźć hiperpłaszczyznę o największym marginesie, która będzie w stanie poprawnie oddzielić wszystkie obserwacje w naszej przestrzeni próbki treningowej.
Biorąc pod uwagę powyższą definicję, jaki jest problem optymalizacji, który musimy rozwiązać?
max(margin)
margin
a także spełnić ograniczenie: Brak błędów w próbieWracając do pytania, ponieważ wspomniałeś, że zestawu danych treningowych nie można rozdzielić liniowo, dzięki zastosowaniu SVM z twardym marginesem bez transformacji cech, nie można znaleźć żadnej hiperpłaszczyzny, która spełniałaby kryteria „Brak błędów w próbie” .
Zwykle rozwiązujemy problem optymalizacji SVM przez programowanie kwadratowe, ponieważ może on wykonywać zadania optymalizacyjne z ograniczeniami. Jeśli używasz Gradient Descent lub innych algorytmów optymalizacyjnych, które nie spełniając ograniczeń twardych marginesów SVM, powinieneś nadal uzyskać wynik, ale nie jest to hiperpłaszczyzna twardych marginesów SVM.
Nawiasem mówiąc, w przypadku danych nieliniowo rozdzielalnych zwykle wybieramy