Uczenie się agnostyczne nad dowolnymi rozkładami

11

Niech będzie rozkładem na pary łańcuchów bitów / etykiet { 0 , 1 } d × { 0 , 1 } i niech C będzie zbiorem funkcji o wartościach logicznych f : { 0 , 1 } d{ 0 , 1 } . Dla każdej funkcji f C , niech: e r r ( f , D ) = Pr ( x , y )D{0,1}d×{0,1}Cf:{0,1}d{0,1}fC i niech: OPT(C,D)= min f C err(f,D) Powiedz, że algorytmAagnostycznie uczy sięCna dowolnym rozkładzie, jeśli dla dowolnegoDmoże ona z prawdopodobieństwem2/3znajduje się funkcjafw taki sposób,eRR(f,

err(f,D)=Pr(x,y)D[f(x)y]
OPT(C,D)=minfC err(f,D)
ACD2/3f , biorąc pod uwagę czas i liczbę próbek z D, które są ograniczone wielomianem id oraz 1 / ϵ .err(f,D)OPT(C,D)+ϵDd1/ϵ

Pytanie: Jakie klasy funkcji są znane z agnostycznego uczenia się w dowolnych rozkładach?C

Żadna klasa nie jest zbyt prosta! Wiem, że nawet monotoniczne sprzężenia nie są znane z agnostycznego uczenia się w dowolnych rozkładach, więc szukam po prostu nietrywialnych klas funkcji.

Aaron Roth
źródło
warto zwrócić uwagę na niewtajemniczonych, że uczenie się agnostyczne koncentruje się na przypadku, gdy OPT (C, D)> 0 (tj. masz niewłaściwą klasę hipotez
Suresh Venkat,
Słuszna uwaga. W szczególnym przypadku, gdy OPT (C, D) = 0, jest to nauka PAC i jest znacznie łatwiejsza. W przypadku uczenia agnostycznego gwarancja musi obowiązywać niezależnie od tego, jaka jest opcja OPT (C, D).
Aaron Roth,
Istnieje również przypadek „PAC z szumem klasyfikacyjnym”, w którym OPT (C, D)> 0, i mimo że masz odpowiednią klasę hipotez (możliwe do wykonania ustawienie), występuje pewien błąd, ponieważ etykiety są losowo odwracane z powodu hałasu ... I chciałbym, aby nazwy różnych ustawień były mniej mylące.
Lev Reyzin
to brzmi jak uczenie się agnostyczne z górną granicą OPT (C, D)
Suresh Venkat
Niezupełnie, ponieważ hałas nie może być arbitralny w klasyfikacyjnym modelu hałasu. Tak więc, jeśli istniał jakiś przeciwny wzorzec hałasu, który utrudniał uczenie się (lub znajdowanie empirycznego minimalizatora ryzyka) w modelu agnostycznym, może to nie występować często w modelu szumu klasyfikacyjnego (tj. Wpaść w parametr delta PAC).
Lev Reyzin

Odpowiedzi:

9

Jeśli żadna klasa nie jest zbyt prosta, oto niektóre agnostycznie możliwe do nauczenia klasy PAC. W odpowiedzi na komentarze przekreślono klasy o wielomianowo wielu hipotezach:

  • drzewa decyzyjne o stałej głębokości (i inne klasy mające tylko wiele hipotez)
  • R2O(n2)
  • związki interwałów (programowanie dynamiczne)
  • log(k)loglog(k)n
  • inne klasy hipotez w warunkach niskiego wymiaru.

Prawie wszystko inne jest trudne do (przynajmniej właściwie) agnostycznie nauki PAC.

Samouczek Adama Kalai na temat nauki agnostycznej może Cię również zainteresować.

Lew Reyzin
źródło
Dzięki. Tak więc drzewa decyzyjne o stałej głębokości, 2-wymiarowe hiperpłaszczyzny (zakładam, że inne ustawienia niskiego wymiaru, o których mówisz) należą do kategorii posiadającej tylko wielomianowo wiele funkcji, których można się nauczyć przez wyczerpanie. Parzystości w logach (k) loglog (k) bitach i związkach przedziałów są interesujące, ponieważ zawierają one wielobiegunowo wiele funkcji. Czy są tacy inni?
Aaron Roth,
Racja, chociaż w nieskończenie wiele jest hiperpłaszczyzn, po prostu O (n ^ 2) inaczej klasyfikuje punkty danych. Nie znam żadnych innych interesujących zajęć z góry mojej głowy, ale jeśli wymyślę / znajdę jakieś, zredaguję moją odpowiedź.
Lew Reyzin
więc chcesz mieć nieograniczone klasy wymiarów VC?
Suresh Venkat
nieograniczony wymiar VC z pewnością byłby interesujący, ale duże, skończone (dla ustalonych d) klasy są już niezwykle interesujące (i wydają się rzadkie)
Aaron Roth
1
@LevReyzin Link do wykładów Kalai nie działa. Czy mógłbyś to naprawić? Szukałem w sieci, ale nie mogłem tego znaleźć.
Anirbit