Przeczytałem o maszynach SVM i dowiedziałem się, że rozwiązują one problem optymalizacji, a maksymalny margines był bardzo rozsądny.
Teraz, za pomocą jąder, mogą znaleźć nawet nieliniowe granice separacji, co było świetne.
Jak dotąd naprawdę nie mam pojęcia, w jaki sposób SVM (specjalna maszyna jądra) i maszyny jądra są powiązane z sieciami neuronowymi?
Rozważ komentarze Yanna Lecuna => tutaj :
kernel methods were a form of glorified template matching
i tutaj również :
Na przykład niektórzy ludzie byli oszołomieni metodami jądra z powodu uroczej matematyki, która się z tym wiąże. Ale, jak powiedziałem w przeszłości, maszyny jądra są w końcu płytkimi sieciami, które wykonują „doskonałe dopasowanie szablonów”. Nie ma w tym nic złego (SVM to świetna metoda), ale ma ogromne ograniczenia, o których wszyscy powinniśmy wiedzieć.
Więc moje pytania to:
- W jaki sposób SVM jest powiązany z siecią neuronową? Jak to jest płytka sieć?
- SVM rozwiązuje problem optymalizacji z dobrze zdefiniowaną funkcją celu, w jaki sposób dopasowuje szablon? Jaki jest tutaj szablon, do którego dopasowuje się dane wejściowe?
Sądzę, że te komentarze wymagają dogłębnego zrozumienia przestrzennych przestrzeni, sieci neuronowych i maszyn jądra, ale do tej pory próbowałem i nie mogłem zrozumieć logiki, która za tym stoi. Ale z pewnością interesujące jest powiązanie dwóch bardzo różnych technik ml.
EDYCJA: Myślę, że zrozumienie SVM z perspektywy neuronowej byłoby świetne. Szukam dokładnej, popartej matematyką odpowiedzi na powyższe dwa pytania, aby naprawdę zrozumieć związek między SVM i sieciami neuronowymi, zarówno w przypadku liniowego SVM, jak i SVM z trikiem jądra.
Odpowiedzi:
SVM jest jednowarstwową siecią neuronową z utratą zawiasu jako funkcją utraty i wyłącznie aktywacją liniową. Koncepcja została wspomniana w poprzednich wątkach, takich jak ten: Jednowarstwowa sieć neuronowa z aktywacją RelU równą SVM?
Gram Matrix (macierz jądra, jeśli wolisz) jest miarą podobieństwa. Ponieważ SVM pozwala na rzadkie rozwiązania, przewidywanie staje się kwestią porównania próbki z szablonami, tj. Wektorami pomocniczymi.
źródło