Prawidłowe uczenie się PAC granice wymiarów VC

11

Dobrze wiadomo, że w przypadku klasy koncepcyjnej C o wymiarze VC wystarczy uzyskać przykłady oznaczone PAC learn . Nie jest dla mnie jasne, czy algorytm uczenia się PAC (który wykorzystuje tak wiele próbek) jest właściwy, czy niewłaściwy? W podręcznikach Kearnsa i Vazirani oraz Anthony'ego i Biggsa wydaje się, że algorytm uczenia się PAC jest niewłaściwy (tj. Hipoteza wyjściowa nie leży w )O ( ddCC.O(dεlog1ε)CC

  1. Czy ktoś może wyjaśnić, czy podobna górna granica ma również zastosowanie do właściwego ustawienia uczenia się PAC? Jeśli tak, czy możesz podać mi odniesienie, w którym jest to wyraźnie wspomniane, a także zawiera samodzielny dowód?

  2. Ostatnio Hanneke poprawił tę granicę, pozbywając się czynnika . Czy ktoś może wyjaśnić, czy wiadomo, że jest usuwalny dla ustawienia uczenia się właściwego PAC? Czy jest to wciąż pytanie otwarte?log ( 1 / ε )log(1/ε)log(1/ε)

Anonimowy
źródło
Do którego artykułu Hanneke się odwołujesz?
gradstudent
1
@gradstudent arxiv.org/abs/1507.00473
Clement C.

Odpowiedzi:

9

Dziękuję Aryehowi za zwrócenie mojej uwagi na to pytanie.

Jak wspomnieli inni, odpowiedź na (1) brzmi „ Tak” , a prosta metoda minimalizacji ryzyka empirycznego w C pozwala uzyskać złożoność próbki O((d/ε)log(1/ε)) (patrz Vapnik i Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler i Warmuth, 1989).

Jeśli chodzi o (2), w rzeczywistości wiadomo, że istnieją przestrzenie C których żaden właściwy algorytm uczenia się nie osiąga lepszej złożoności próbki niż Ω((d/ε)log(1/ε)) , a zatem prawidłowe uczenie się nie może osiągnąć optymalnego O(d/ε) złożoność próby. O ile mi wiadomo, fakt ten nigdy nie został opublikowany, ale jest zakorzeniony w pokrewnym argumencie Daniely'ego i Shaleva-Shwartza (COLT 2014) (pierwotnie sformułowanym dla innego, ale pokrewnego pytania w uczeniu się wieloklasowym).

Rozważmy Prosty przykład d=1 , i umieścić w przestrzeni X jako {1,2,...,1/ε} , a C to singletony fz(x):=I[x=z],zX : to znaczy, każdy klasyfikator w C klasyfikuje dokładnie jeden punkt od X jako 1 a pozostałe jako 0. Na dolnej granicy, należy docelową funkcję jako losowej jednoelementowy fx , gdzie xUniform(X) i P krańcowa rozkład X jest jednolity o X{x} . Teraz uczeń nigdy nie widzi żadnych przykładów oznaczonych jako 1 , ale musi wybrać punkt z aby odgadnąć, że ma oznaczenie 1 (co ważne, funkcja `` wszystko zero '' nie znajduje się w CTak dowolny właściwy uczący musi że niektórzy z ), i dopiero widoczne każdym punkcie X{x} ma co najmniej 1/2 możliwość zgadywania źle (czyli tylnej prawdopodobieństwo ich fz o zx co najmniej 1/2 ). Argument kolektora kuponów sugeruje, że wymagałby Ω((1/ε)log(1/ε))próbki, aby zobaczyć każdy punkt w X{x} . Dowodzi to dolnej granicy Ω((1/ε)log(1/ε)) dla wszystkich właściwych uczniów.

Dla ogólnej d>1 bierzemy X jako {1,2,...,d/(4ε)} , weź C jako klasyfikatory IA dla zbiorów AX o rozmiarze dokładnie d , wybierz losowo funkcję docelową z C i ponownie przyjmij P jako jednolity tylko w punktach, które funkcja docelowa klasyfikuje 0 ( więc uczący się nigdy nie widzi punktu oznaczonego jako 1). Zatem uogólnienie argumentu kupca-kolektora sugeruje, że potrzebujemy próbek Ω((d/ε)log(1/ε)) aby zobaczyć przynajmniej |X|2d różne punkty z X i bez obejrzeniu tego wiele różnych punktach dowolny właściwy uczący przynajmniej 1/3 szanse na uzyskanie większych niż d/4 jego przypuszczalne A do d punkty niesłusznie wybrany hipotezy hA, co oznacza, że ​​jego poziom błędu jest większy niż ε . Zatem w tym przypadku nie ma odpowiedniego ucznia o złożoności próbki mniejszej niż Ω((d/ε)log(1/ε)) , co oznacza, że ​​żaden uczący się nie osiąga optymalnej złożoności próbki O(d/ε) .

Zauważ, że wynik jest dość specyficzny dla skonstruowanej przestrzeni CIstnieją przestrzenie C których właściwi uczniowie mogą osiągnąć optymalną złożoność próbki O(d/ε) , a nawet dokładne pełne wyrażenie O((d/ε)+(1/ε)log(1/δ)) z ( Hanneke, 2016a). Niektóre górne i dolne granice dla ogólnych uczniów ERM zostały opracowane w (Hanneke, 2016b), skwantyfikowane pod względem właściwości przestrzeni C, a także omawianie bardziej wyspecjalizowanych przypadków, w których konkretni właściwi uczniowie mogą czasami osiągnąć optymalną złożoność próby.

Bibliografia:

Vapnik and Chervonenkis (1974). Teoria rozpoznawania wzorców. Nauka, Moskwa, 1974.

Blumer, Ehrenfeucht, Haussler i Warmuth (1989). Uczenie się i wymiar Vapnika-Chervonenkisa. Journal of the Association for Computing Machinery, 36 (4): 929–965.

Daniely i Shalev-Shwartz (2014). Optymalni uczniowie dla problemów wieloklasowych. W materiałach z 27. Konferencji na temat teorii uczenia się.

Hanneke (2016a). Optymalna złożoność próby uczenia się PAC. Journal of Machine Learning Research, t. 17 (38), s. 1–15.

Hanneke (2016b). Udoskonalone granice błędów dla kilku algorytmów uczenia się. Journal of Machine Learning Research, t. 17 (135), s. 1–55.

S. Hanneke
źródło
Ciekawe ... Czy istnieje kombinatoryczna charakterystyka klas dla których prawidłowe uczenie się PAC jest optymalne dla próbki? Lub przynajmniej wystarczające warunki (zamknięcie pod skrzyżowaniem, zjednoczenie?)C
Clement C.
2
@ClementC. Nie jest znana pełna charakterystyka, które klasy mają optymalne wskaźniki osiągalne przez właściwych uczniów w ogóle. Przywoływany artykuł „Wyrafinowane granice błędów ...” podaje kombinatoryczną charakterystykę, które klasy dopuszczają optymalne stawki dla wszystkich uczniów ERM (wniosek 14). Odpowiednią ilością jest „liczba gwiazd”: największa liczba punktów, tak że można przerzucić etykietę dowolnego punktu bez zmiany pozostałych (Definicja 9). Klasy zamknięte na skrzyżowaniach mają optymalnego ucznia: algę „zamknięcia” (Twierdzenie 5 w pracy, a także udowodnione przez Darnstädta, 2015).
S. Hanneke,
Dziękuję Ci!
Clement C.
6

Twoje pytania (1) i (2) są powiązane. Najpierw porozmawiajmy o właściwej nauce PAC. Wiadomo, że istnieją odpowiednie osoby uczące się PAC, które osiągają zerowy błąd próbki, a mimo to wymagają przykłady. Dla prostego dowoduzależnościϵrozważ klasę przedziałów[a,b][0,1]w rozkładzie równomiernym. Jeśli wybierzemynajmniejszyspójny przedział, rzeczywiście otrzymamy próbkę złożonościO(1/ϵ). Załóżmy jednak, że wybieramynajwiększyspójny przedział, a pojęciem docelowym jest przedział punktowy, taki jak[0,0]Ω(dϵlog1ϵ)ϵ[a,b][0,1]O(1/ϵ)[0,0]. Następnie prosty argument zbierający kupony pokazuje, że jeśli nie otrzymamy mniej więcej przykładów, oszukuje nas odstęp między negatywnymi przykładami (jedyny rodzaj, jaki zobaczymy) - który ma charakterystyczne zachowanie1/[wielkość próby] pod rozkładem jednolitym. Bardziej ogólne dolne granice tego typu podano w1ϵlog1ϵ1/

P. Auer, R. Ortner. Nowy PAC związany dla klas koncepcyjnych zamkniętych skrzyżowaniami. Machine Learning 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

Właściwe PAC polega na tym, że dla pozytywnych wyników w przypadku abstrakcyjnym nie można określić algorytmu poza ERM, który mówi „znaleźć koncepcję zgodną z oznaczoną próbką”. Gdy masz dodatkową strukturę, taką jak interwały, możesz zbadać dwa różne algorytmy ERM, jak wyżej: minimalny vs. maksymalny spójny segment. I mają one różne złożone próbki!

Moc niewłaściwego PAC polega na tym, że możesz projektować różne schematy głosowania (taki jest wynik Hanneke) - a ta dodatkowa struktura pozwala udowodnić poprawę stawek. (Historia jest prostsza dla agnostycznego PAC, w którym ERM zapewnia najlepszy możliwy wskaźnik najgorszego przypadku, aż do stałych.)

Edytować. Teraz przychodzi mi do głowy, że strategia prognozowania grafu 1-inkluzji D. Hausslera, N. Littlestone'a, Md K. Warmutha. Prognozowanie {0,1} -funkcje losowych punktów. Inf. Comput. 115 (2): 248-292 (1994) może być naturalnym kandydatem do uniwersalnego właściwa uczący pac.O(d/ϵ)

Aryeh
źródło
Dzięki! Ok, więc jeśli dobrze cię rozumiem, przykładowa złożoność niewłaściwego uczenia się PAC to a dla właściwego uczenia się PAC to Θ ( d / ϵ log ( 1 / ϵ ) ) , dolna granica dla tego ostatniego osiągnięte dla podanego przykładu. Czy to prawda? Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))
Anonimowy
Tak, z niewielkim zastrzeżeniem, że w przypadku niewłaściwego PAC musisz użyć określonego algorytmu (Hanneke's) - nie tylko żadnego starego ERM. Przyjmij odpowiedź :)
Aryeh
Spóźniam się na imprezę, ale czy wyżej wspomniany Dolny Proper-PAC nie ogranicza dolnej granicy złożoności próbki tylko dla konkretnego algorytmu uczenia się (lub jego ograniczonej klasy)? Chodzi mi o to, że bez takich ograniczeń nie ma informacji - teoretycznie nie ma podziału na właściwy i niewłaściwy PAC, prawda? (A zatem bez separacji bez założeń obliczeniowych, takich jak lub podobnych)?)NPRP
Clement C.
1
Zwykła definicja uczenia się PAC wymaga algorytmów wieloczasowych. Chodzi mi o to: (i) rozluźnienie tego, że właściwe i niewłaściwe mają tę samą złożoność próby; (ii) przy tym wymaganiu nie możemy udowodnić bezwarunkowego oddzielenia właściwego i niewłaściwego (ponieważ w gruncie rzeczy dowodziłoby to, że NP nie jest równy RP). (Możemy udowodnić dolne ograniczenie złożoności próbki konkretnych odpowiednich algorytmów uczenia się, chociaż, który o ile mi zrozumieć to, co robi odniesienie Arie w.)
Clement C.
1
@ClementC. W jednym ze swoich wcześniejszych komentarzy, o którym wspomniałeś po uruchomieniu niewłaściwego algorytmu PAC, uczeń uzyskuje prawdopodobnie niewłaściwą hipotezę, a następnie może znaleźć najbliższą właściwą hipotezę z klasy koncepcyjnej (bez żadnych dodatkowych próbek). Ale w jaki sposób uczeń może to zrobić, nie znając rozkładu, w którym otrzymuje próbki? Czy najbliższy nie jest mierzony według nieznanego rozkładu?
Anonimowy
5

Aby dodać do obecnie akceptowanej odpowiedzi:

  1. Tak.

    O(dεlog1ε)
    NP=RPLH=C
  2. log(1/ε)

    log(1/ε)(ε,δ)

    (Przypis 1 w tym samym dokumencie jest również istotny)


[1] A. Blumer, A. Ehrenfeucht, D. Haussler i MK Warmuth. Uczenie się i wymiar Vapnika-Chervonenkisa. Journal of the ACM, 36 (4): 929–965, 1989.

[2] S. Hanneke. Optymalna złożoność próby uczenia się PAC. J. Mach. Uczyć się. Res. 17, 1, 1319–1333, 2016.

[3] S. Arunachalam i R. de Wolf. Optymalna złożoność próbek kwantowych algorytmów uczenia się. W materiałach z 32. konferencji złożoności obliczeniowej (CCC), 2017.

Klemens C.
źródło
Czy przypuszcza się, że wykres włączenia 1 Hausslera i in. czy taki optymalny uczeń PAC?
Aryeh
@Aryeh Nie jestem pewien. Z tego, co mogłem znaleźć, Warmuth tak przypuszczał w 2004 roku. Nie wiem nic więcej.
Clement C.