Wiemy, że (patrz np. Twierdzenia 1 i 3 z [1]), z grubsza mówiąc, w odpowiednich warunkach, funkcje, które mogą być skutecznie obliczone przez maszynę Turinga w czasie wielomianowym („wydajnie obliczalne”), mogą być wyrażone przez wielomianowe sieci neuronowe z rozsądnymi rozmiarami, a zatem można się go nauczyć z wielomianową złożonością próbki („możliwą do nauczenia”) w dowolnych dystrybucjach wejściowych.
Tutaj „możliwe do nauczenia się” dotyczy tylko złożoności próbki, niezależnie od złożoności obliczeniowej.
Zastanawiam się nad bardzo ściśle powiązanym problemem: czy istnieje funkcja, która nie może być skutecznie obliczona przez maszynę Turinga w czasie wielomianowym („nie wydajnie obliczalna”), ale tymczasem można się jej nauczyć z wielomianową złożonością próbki („możliwą do nauczenia”) pod jakimikolwiek dystrybucjami wejściowymi?
- [1] Roi Livni, Shai Shalev-Shwartz, Ohad Shamir, „ O wydajności obliczeniowej szkoleniowych sieci neuronowych ”, 2014
Odpowiedzi:
Sformalizuję wariant tego pytania, w którym „wydajność” zostaje zastąpiona przez „obliczalność”.
Niech będzie klasą koncepcyjną wszystkich języków rozpoznawalną przez maszyny Turinga na stanach lub mniej. Ogólnie rzecz biorąc, dla i problem oceny jest nierozstrzygalny.Cn L⊆Σ∗ n x∈Σ∗ f∈Cn f(x)
Załóżmy jednak, że mamy dostęp do (właściwej, możliwej do zrealizowania) wyroczni uczenia się PAC dla . Oznacza to, że dla każdego wyrocznia żąda oznaczonej próbki o wielkości takiej, że przy założeniu, że taka próbka została pobrana z nieznanego rozkładu , wyrocznia wypisuje hipotezę która z prawdopodobieństwem co najmniej ma błąd generalizacji nie większy niż . Pokażemy, że ta wyrocznia nie jest obliczalna przez Turinga.A Cn ϵ,δ>0 m0(n,ϵ,δ) D A f^∈Cn 1−δ D ϵ
Faktycznie, pokażemy, że prostszym problemem jest nierozstrzygalny: Jeden z określenia, biorąc pod uwagę oznaczone próbki , czy istnieje zgodny z . Załóżmy (aby uzyskać sprzeczność), że jest maszyną Turinga, która decyduje o problemie konsystencji.S f∈Cn S K
Tworzymy następujące konwencje notacyjne. Zidentyfikuj pomocą za pomocą zwykłego porządku leksykograficznego. Dla mówimy, że TM „S-drukuje” jeśli przyjmuje wszystkie ciągi w odpowiadające indeksom st i nie zaakceptuj (prawdopodobnie nie zatrzymując) dowolny ciąg odpowiadający indeksom . Ponieważ (z założenia) jest rozstrzygalne, wynika z tego, że funkcja , zdefiniowana jako najmniejsza taka, że niektóre TM wΣ∗ N={0,1,2,…} x∈{0,1}∗ M x Σ∗ i xi=1 xi=0 K K~:x↦k k Ck
S-print , jest obliczalny przez Turinga. Wynika z tego, że funkcja
, która odwzorowuje
na najmniejszy (leksykograficzny) ciąg
taki, że , jest również obliczalna.x g:k↦x k∈N x∈{0,1}∗ K~(x)>k
Teraz zdefiniuj TM w następujący sposób: S-drukuje , gdzie to kodowanie , oznacza Długość łańcucha i rekursja twierdzenie powołano się wskazanie na istnienie takiej . Zatem ma pewną długość kodowania,, i S-drukuje jakiś ciąg, . Z konstrukcji , a więc nie może być wydrukowany w S przez żadną TM o długości opisuM M g(|⟨M⟩|) ⟨M⟩ M |x| M M ℓ=|⟨M⟩| xM∈{0,1}∗ K~(xM)>ℓ xM ℓ lub krócej. A jednak jest to zdefiniowane jako wydruk S-print TM o długości opisu --- sprzeczność.ℓ
źródło