Interesują mnie teoretyczne wyniki zdolności uogólniających maszyn wektorów podporowych, np. Granice prawdopodobieństwa błędu klasyfikacji i wymiaru Vapnika-Chervonenkisa (VC) tych maszyn. Jednak czytając literaturę, miałem wrażenie, że niektóre podobne powtarzające się wyniki różnią się nieznacznie w zależności od autora, szczególnie jeśli chodzi o warunki techniczne wymagane dla danego obowiązku.
W dalszej części przypomnę strukturę problemu SVM i stan 3 głównych wyników uogólnienia, które wielokrotnie odnajdywałem w takiej czy innej formie podam 3 główne odniesienia w całej prezentacji.
Ustawienie problemu :
Załóżmy, że mamy próbkę danych niezależnych i identycznie rozmieszczonych (iid) par gdzie dla wszystkich , i . Konstruujemy maszynę wektorów nośnych (SVM), która maksymalizuje minimalny margines między hiperpłaszczyzną oddzielającą zdefiniowaną przez , i , i najbliższy punkt spośród , aby oddzielić dwie klasy zdefiniowane przez i . Pozwalamy, aby SVM przyznał pewne błędy poprzez miękki margines, wprowadzając zmienne luzu ale dla uproszczenia notacji ignorujemy możliwość jądra. Parametry rozwiązania i są uzyskiwane przez rozwiązanie następującego wypukłego programu optymalizacji kwadratowej:
Interesuje nas możliwość uogólnienia tej maszyny.
Wymiar Vapnik-Chervonenkis :
Pierwszy wynik wynika z (Vapnik, 2000), w którym ogranicza wymiar VC oddzielającej hiperpłaszczyzny, twierdzenie 5.1. Niech , mamy:
Ten wynik można ponownie znaleźć w (Burges, 1998), twierdzenie 6. Wydaje się jednak, że twierdzenie Burgesa jest bardziej restrykcyjne niż ten sam wynik Vapnika, ponieważ musi on zdefiniować specjalną kategorię klasyfikatorów, znaną jako klasyfikatory tolerujące odstępy do którego należy SVM , aby stwierdzić twierdzenie.
Ograniczenia prawdopodobieństwa błędów :
W (Vapnik, 2000) twierdzenie 5.2 na stronie 139 określa następujące ograniczenie możliwości generalizacji SVM:
gdzie to liczba wektorów pomocniczych SVM. Wyniki te wydają się znaleźć ponownie odpowiednio w (Burges, 1998), równaniach (86) i (93). Ale znowu Burges wydaje się różnić od Vapnika, ponieważ oddziela komponenty w ramach powyższej funkcji minimum w różnych twierdzeniach, z różnymi warunkami.
Kolejny wynik pojawiający się w (Vapnik, 2000), s. 133, jest następujący. Zakładając ponownie, że dla wszystkich , i pozwalając i , definiujemy jako równe:
Definiujemy również jako liczbę błędnie sklasyfikowanych przykładów szkolenia przez SVM. Następnie z prawdopodobieństwem możemy stwierdzić, że prawdopodobieństwo, że przykładowy test nie zostanie poprawnie rozdzielony przez hiperpłaszczyznę -margin tj. SVM z marginesem ma granicę:
Jednak w (Hastie, Tibshirani i Friedman, 2009), s. 438 znaleziono bardzo podobny wynik:
Wniosek :
Wydaje mi się, że między tymi wynikami istnieje pewien stopień konfliktu. Z drugiej strony dwa z tych odniesień, choć kanoniczne w literaturze SVM, zaczynają być nieco stare (1998 i 2000), szczególnie jeśli weźmiemy pod uwagę, że badania nad algorytmem SVM rozpoczęły się w połowie lat dziewięćdziesiątych.
Moje pytania to:
- Czy wyniki te są nadal aktualne, czy też okazały się błędne?
- Czy od tego czasu uzyskano ściślejsze granice przy stosunkowo luźnych warunkach? Jeśli tak, to kto i gdzie mogę je znaleźć?
- Wreszcie, czy jest jakiś materiał referencyjny, który syntetyzuje główne wyniki uogólnienia dotyczące SVM?
Referencje :
Vapnik, VN (1998). Statystyczna teoria uczenia się , 1. wydanie, John Wiley & Sons
Vapnik, VN (2000). Natura statystycznej teorii uczenia się , wydanie drugie, Springer
źródło
Odpowiedzi:
Nie znam szczegółowo literatury, do której się odwołujesz, ale uważam, że wyczerpujące streszczenie granic uogólnienia, które powinny być aktualne, można znaleźć w Boucheron i in. (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-luty-2-14-2003-Tybinga-Niemcy-sierpień-4-16-2003-Revised-Lectures.pdf # page = 176 )
Naszkicuję część SVM związaną z poniższym, pomijając szczegóły i dowody.
Przed opracowaniem konkretnie związanym z SVM, musimy zrozumieć, co starają się osiągnąć granice uogólnienia.
Najpierw załóżmy, że prawdziwe prawdopodobieństwo jest znane, wówczas najlepszym możliwym klasyfikatorem byłby klasyfikator Bayesa, tj.P(Y=+1|X=x)
Celem teorii uczenia statystycznego jest teraz znalezienie różnicy między klasyfikatorem klasy (np. SVM) i klasyfikator Bayesa, tj. Należy zauważyć, że jest oczekiwane utraty danych i jest najlepszym klasyfikatora w model klasy . Termin nazywa się błędem oszacowania i często jest fokusowany, ponieważ można go znacznie łatwiej ograniczyć niż błąd aproksymacji (drugi termin). Pominę również błąd przybliżenia tutaj.C
Błąd oszacowania można dodatkowo rozłożyć za pomocą Teraz można to ograniczyć dwoma krokami:Z
Związane przy użyciu nierówności McDiarmidZ−EZ
Związane ze złożonością RademacheraEZ Rn(C)=Esupg∈C|1/n∑ni=1l(g(Xi),Yi)|
Używając nierówności McDiarmids można pokazać, że jeśli funkcja utraty mieści się w przedziale nie większym niż , krok pierwszy skutkuje granicą gdzie to poziom ufności. W drugim kroku możemy pokazać, że Jeśli masz dyskretną funkcję straty, tj. Nie-Lipschitz, taką jak 0-1 -tracenie, potrzebowałbyś Wymiaru VC do dalszego ograniczenia złożoności Rademachera. Jednak w przypadku funkcji L-lipschitz, takich jak utrata zawiasów, można to dodatkowo ograniczyć przez gdzieB
źródło