Jakie są główne twierdzenia w uczeniu maszynowym (głębokim)?

45

Al Rahimi wygłosił ostatnio bardzo prowokujący wykład w NIPS 2017, porównując obecne uczenie maszynowe z alchemią. Jednym z jego twierdzeń jest to, że musimy wrócić do rozwoju teoretycznego, aby mieć proste twierdzenia potwierdzające fundamentalne wyniki.

Kiedy to powiedział, zacząłem szukać głównych twierdzeń dotyczących ML, ale nie mogłem znaleźć dobrego odniesienia, które miałoby sens z głównych wyników. Oto moje pytanie: jakie są obecne główne twierdzenia matematyczne (teoria) w ML / DL i co one dowodzą? Domyślam się, że praca Vapnika gdzieś tu pójdzie. Dodatkowo, jakie są główne teoretyczne otwarte problemy?

statslearner
źródło
3
@Tim Ten thead jest swego rodzaju ze stats.stackexchange.com/questions/2379/... („Jakie są duże problemy w statystykach?”).
whuber
2
Jest trochę szeroki. Czy możesz przynajmniej podać podzbiór uczenia maszynowego? Jeśli ograniczymy się do głębokiego uczenia się lub przynajmniej do nadzorowanego uczenia się, można spróbować znaleźć odpowiedź. Ale jeśli nalegasz na coś takiego jak „Matematyka uczenia maszynowego”, odpowiedź zajmie wieki.
DeltaIV
3
W świetle przykładowego analogu @ whuber, jestem skłonny powiedzieć, że powinno to pozostać otwarte jako CW, szczególnie jeśli można to ograniczyć do określonego podzbioru ML, takiego jak nadzorowane uczenie się , na żądanie DeltaV.
gung - Przywróć Monikę
3
@DeltaIV Pamiętaj, że w tytule znajduje się „Deep”.
ameba mówi Przywróć Monikę
4
Zrozumienie tego pytania było tematem ostatniej serii wykładów prowadzonych przez Davida Donoho: patrz stats385.github.io .
user795305

Odpowiedzi:

43

Jak napisałem w komentarzach, pytanie to wydaje mi się zbyt ogólne, ale spróbuję znaleźć odpowiedź. Aby wyznaczyć pewne granice, zacznę od małej matematyki, która leży u podstaw większości ML, a następnie skoncentruję się na najnowszych wynikach dla DL.


Bias-wariancji kompromis jest określany w niezliczonych książkach, kursach, MOOCs, blogi, tweety, itp na ML, więc nie można uruchomić bez wymieniania go:

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

Dowód tutaj: https://web.stanford.edu/~hastie/ElemStatLearn/


Twierdzenie Gaussa-Markowa (tak, regresja liniowa pozostanie ważną częścią uczenia maszynowego, bez względu na to: jak sobie z tym poradzić) wyjaśnia, że ​​gdy model liniowy jest prawdziwy i niektóre założenia dotyczące terminu błędu są prawidłowe, OLS ma minimum średni błąd kwadratu (który w powyższym wyrażeniu jest po prostu ) tylko wśród bezstronnych estymatorów liniowych modelu liniowego. Tak więc mogą istnieć estymatory liniowe z odchyleniem (lub estymatory nieliniowe), które mają lepszy błąd średniej kwadratowej, a zatem lepszy oczekiwany błąd predykcji, niż OLS. A to toruje drogę do całego arsenału regularyzacji (regresja grzbietu, LASSO, spadek masy ciała itp.), Który jest koniem ML. Dowód jest podany tutaj (i w wielu innych książkach): Bias2 + Variancehttps://www.amazon.com/Linear-Statistic-Models-James-Stapleton/dp/0470231467

Prawdopodobnie bardziej istotne dla eksplozji podejść regularyzacyjnych, jak zauważył Carlos Cinelli w komentarzach, i zdecydowanie przyjemniejsze do nauczenia się, jest twierdzenie Jamesa-Steina . Rozważ niezależnych, tej samej wariancji, ale nie takich samych średnich zmiennych losowych Gaussa:n

Xi|μiN(θi,σ2),i=1,,n

innymi słowy, mamy składowy losowy wektor Gaussa . Mamy jedną próbkę z i chcemy oszacować . Estymatorem MLE (a także UMVUE) jest oczywiście . Rozważ estymator Jamesa-SteinanXN(θ,σ2I)xXθθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

Oczywiście, jeśli , zmniejsza oszacowanie MLE do zera. James-Stein twierdzenie mówi, że dla , bezwzględnie dominuje , to znaczy, że ma niższy MSE . Dziwne, zaskakująco, nawet jeśli skurczymy się w kierunku jakiejkolwiek innej stałej , nadal dominuje . Od(n2)σ2||x||2θ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXisą niezależne, może wydawać się dziwne, że próba oszacowania wzrostu trzech niepowiązanych osób, w tym próbki z liczby jabłek wyprodukowanych w Hiszpanii, może średnio poprawić naszą ocenę . Kluczową kwestią jest tutaj „średnio”: średni błąd kwadratowy dla równoczesnego oszacowania wszystkich składników wektora parametrów jest mniejszy, ale błąd kwadratowy dla jednego lub więcej składników może być znacznie większy i rzeczywiście często ma miejsce, gdy masz „ekstremalne” obserwacje.

Dowiedzenie się, że MLE, który był rzeczywiście „optymalnym” estymatorem w przypadku estymacji jednoczynnikowej, został zdetronizowany dla estymacji wielowymiarowej, było wówczas dość szokiem i doprowadziło do dużego zainteresowania skurczem, lepiej znanym jako regularyzacja w mowie ML. Można zauważyć pewne podobieństwa z modelami mieszanymi i koncepcją „siły zaciągania pożyczek”: rzeczywiście istnieje pewne powiązanie, jak omówiono tutaj

Ujednolicony pogląd na kurczenie się: jaka jest relacja (jeśli występuje) między paradoksem Steina, regresją grzbietu i efektami losowymi w modelach mieszanych?

Odniesienia: James, W., Stein, C., Estimation with Quadratic Loss . Materiały z czwartego sympozjum Berkeley na temat statystyki matematycznej i prawdopodobieństwa, tom 1: Wkład do teorii statystyki, 361--379, University of California Press, Berkeley, Kalifornia, 1961


Podstawowa analiza składowa jest kluczem do ważnego tematu redukcji wymiarów i opiera się na rozkładzie wartości osobliwych : dla każdej rzeczywistej macierzy (chociaż twierdzenie łatwo uogólnia się na złożone macierze) możemy napisaćN×pX

X=UDVT

gdzie o rozmiarze jest ortogonalny, jest macierzą diagonalną z nieujemnymi elementami diagonalnymi, a o wielkości jest ponownie ortogonalny. Dowody i algorytmy obliczania można znaleźć w: Golub, G. i Van Loan, C. (1983), Obliczenia Matrix , prasa John Hopkins University, Baltimore.UN×pDp×pUp×p


Twierdzenie Mercer'a jest kamieniem węgielnym dla wielu różnych metod ML: cienkie splajny płytowe, maszyny wektorów nośnych, oszacowanie Kriginga losowego procesu Gaussa itp. Zasadniczo jest jednym z dwóch twierdzeń stojących za tak zwaną sztuczką jądra . Niech będzie symmmetryczną funkcją ciągłą lub jądrem. jeśli jest dodatnim półfinałem, to przyjmuje ortonormalną podstawę funkcji własnych odpowiadającą nieujemnym wartościom własnym:K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

O znaczeniu tego twierdzenia dla teorii ML świadczy liczba odniesień, jakie otrzymuje w słynnych tekstach, takich jak na przykład Rasmussen i Williams o procesach Gaussa .

Odniesienia: J. Mercer, Funkcje typu dodatniego i ujemnego oraz ich związek z teorią równań całkowych. Transakcje filozoficzne Royal Society of London. Seria A, zawierająca dokumenty o charakterze matematycznym lub fizycznym, 209: 415-446, 1909

Prostsza prezentacja znajduje się również w Konradzie Jörgensie, operatorach całki liniowej , Pitman, Boston, 1982.


Drugim twierdzeniem, które wraz z twierdzeniem Mercer'a stanowi teoretyczne podstawy sztuczki jądra, jest twierdzenie reprezentujące . Załóżmy, że masz przykładową przestrzeń i symetryczne dodatnie jądro semidfinite . Także pozwala być RKHS związane z . Na koniec niech będzie próbką szkoleniową. Twierdzenie mówi, że spośród wszystkich funkcji , które wszystkie przyjmują nieskończoną reprezentację pod względem funkcji własnychXK:X×XRHKKS={xi,yi}i=1nfHKKz powodu twierdzenia Mercer'a to, które minimalizuje ryzyko regulowane, zawsze ma skończoną reprezentację w podstawie utworzonej przez jądro oceniane w punktach treningowych, tj.n

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(twierdzenie jest ostatnią równością). Odniesienia: Wahba, G. 1990, Spline Models for Observational Data , SIAM, Philadelphia.


Uniwersalny przybliżenie twierdzenie zostało już cytowany przez użytkownika Tobias Windisch i jest znacznie mniej istotne dla uczenia maszynowego, niż jest do analizy funkcjonalnej, nawet jeśli nie może wydawać się więc na pierwszy rzut oka. Problem polega na tym, że twierdzenie mówi tylko, że taka sieć istnieje, ale:

  • nie daje żadnej korelacji między rozmiarem ukrytej warstwy a pewną miarą złożoności funkcji docelowej , takiej jak na przykład Całkowita zmienność. Jeśli a wymagane dla stałego błędu rośnie wykładniczo z , to neuronalna pojedyncza warstwa ukryta sieci byłyby bezużyteczne.Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • nie mówi, czy sieci można się nauczyć . Innymi słowy zakładamy, że biorąc pod uwagę i , wiemy, że rozmiar NN będzie zbliżony do z wymaganą tolerancją w hipersześcianie. Następnie, stosując zestawy szkoleniowe o rozmiarze i procedurę uczenia się, taką jak na przykład śmigło wsteczne, czy mamy jakąkolwiek gwarancję, że zwiększając możemy odzyskać ?F(x)fϵNfMMF
  • wreszcie, co gorsza, nie mówi nic o błędzie prognozy sieci neuronowych. Co tak naprawdę zainteresowany jest oszacowanie błędu predykcji, przynajmniej uśrednione dla wszystkich zestawów szkoleniowych rozmiarze . Twierdzenie nie pomaga w tym względzie.M

Mniejszy problem z wersją tego twierdzenia Hornika polega na tym, że nie dotyczy to funkcji aktywacyjnych ReLU. Jednak Bartlett udowodnił później rozszerzoną wersję, która pokrywa tę lukę.


Do tej pory wydaje mi się, że wszystkie twierdzenia, które rozważałem, były dobrze znane każdemu. Czas na zabawę :-) Zobaczmy kilka twierdzeń o głębokim uczeniu się :

Założenia:

  • głęboka sieć neuronowa (dla stałej , jest funkcją, która łączy wejścia sieci neuronowej z jej wyjściami) i utrata regularyzacji są sumami dodatnio jednorodne funkcje tego samego stopniaΦ(X,W)WΦW(X)Θ(W)
  • funkcja stratności jest wypukła i raz można ją rozróżnić w , w zwartym zbiorzeL(Y,Φ(X,W)XS

Następnie:

  • dowolne lokalne minimum dla takie, że podsieć ma zerowe wagi, jest globalnym minimum ( Twierdzenie 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • powyżej krytycznego rozmiaru sieci, lokalne zejście zawsze będzie zbieżne do globalnego minimum po każdej inicjalizacji ( Twierdzenie 2 ).

Jest to bardzo interesujące: CNN wykonane tylko z warstw splotowych, ReLU, max-pooling, w pełni połączone ReLU i warstwy liniowe są dodatnio jednorodnymi funkcjami, a jeśli uwzględnimy funkcje aktywacji sigmoidalnej, nie jest to już prawdą, co może częściowo tłumaczyć wyższość wydajność w niektórych aplikacjach ReLU + max pooling w odniesieniu do sigmoidów. Co więcej, twierdzenia te obowiązują tylko wtedy, gdy jest dodatnio jednorodna w w tym samym stopniu co . faktem jest to, że lub , choć pozytywnie jednorodna, nie ma tego samego stopnia (stopieńΘWΦl1l2ΦΦ, w prostym przypadku CNN wspomnianym wcześniej, wzrasta wraz z liczbą warstw). Zamiast tego, bardziej nowoczesne metody regularyzacji, takie jak normalizacja partii i ścieżka-SGD, odpowiadają dodatnio jednorodnej funkcji regularyzacji o takim samym stopniu jak , a porzucenie, choć nie pasujące dokładnie do tego frameworka, wykazuje silne podobieństwo do niego. To może wyjaśniać, dlaczego, aby uzyskać wysoką dokładność z CNN, i nie są wystarczające, ale musimy zastosować wszelkiego rodzaju diabelskie sztuczki, takie jak rezygnacja i normalizacja partii! Zgodnie z moją najlepszą wiedzą jest to najbliższe wytłumaczenie skuteczności normalizacji partii, która poza tym jest bardzo niejasna, jak słusznie zauważył Al Rahimi w swoim wystąpieniu.Φl1l2

Kolejnym spostrzeżeniem, które niektórzy robią na podstawie Twierdzenia 1 , jest to, że mogłoby to wyjaśnić, dlaczego ReLU działa dobrze, nawet w przypadku problemu martwych neuronów . Zgodnie z tą intuicją fakt, że podczas treningu niektóre neurony ReLU „giną” (idą do aktywacji zerowej, a następnie nigdy się z niej nie regenerują, ponieważ dla gradient ReLU wynosi zero) jest „cechą, a nie błędem „, ponieważ jeśli osiągnęliśmy minimum i umarła pełna podsieć, to prawdopodobnie osiągnęliśmy globalne minimum (zgodnie z hipotezami Twierdzenia 1x<0). Być może czegoś mi brakuje, ale myślę, że ta interpretacja jest zbyt daleko idąca. Przede wszystkim podczas szkolenia ReLU mogą „umrzeć” na długo przed osiągnięciem lokalnego minimum. Po drugie, należy udowodnić, że kiedy jednostki ReLU „umierają”, zawsze robią to w pełnej podsieci: jedynym przypadkiem, gdy jest to trywialnie prawdziwe, jest tylko jedna ukryta warstwa, w którym to przypadku oczywiście każdy pojedynczy neuron jest podsieć. Ale ogólnie byłbym bardzo ostrożny, widząc „martwe neurony” jako dobrą rzecz.

Bibliografia:

B. Haeffele i R. Vidal, Globalna optymalizacja w szkoleniu w sieci neuronowej , Na konferencji IEEE nt. Wizji komputerowej i rozpoznawania wzorców, 2017.

B. Haeffele i R. Vidal. Globalna optymalizacja w rozkładzie na czynniki tensorowe, głębokie uczenie się i nie tylko , arXiv, abs / 1506.07540, 2015.


Klasyfikacja obrazów wymaga uczenia się reprezentacji, które są niezmienne (lub przynajmniej solidne, tj. Bardzo słabo wrażliwe) na różne transformacje, takie jak lokalizacja, poza, punkt widzenia, oświetlenie, ekspresja itp., Które są zwykle obecne na naturalnych obrazach, ale nie zawierają informacji do zadania klasyfikacyjnego. To samo dotyczy rozpoznawania mowy: zmiany wysokości, głośności, tempa, akcentu. itp. nie powinny prowadzić do zmiany klasyfikacji tego słowa. Operacje takie jak splot, maksymalna pula, średnia pula itp. Stosowane w sieciach CNN mają dokładnie ten cel, dlatego intuicyjnie oczekujemy, że będą działać w tych aplikacjach. Ale czy mamy twierdzenia na poparcie tej intuicji? Istnieje twierdzenie o niezmienności translacji pionowej, która, niezależnie od nazwy, nie ma nic wspólnego z tłumaczeniem w kierunku pionowym, ale jest to w zasadzie wynik, który mówi, że cechy wyuczone w kolejnych warstwach stają się coraz bardziej niezmienne w miarę wzrostu liczby warstw. Jest to sprzeczne ze starszym twierdzeniem o niezmienności translacji poziomej, które jednak dotyczy sieci rozpraszania, ale nie CNN. Twierdzenie to jest jednak bardzo techniczne:

  • zakładamy, że (obraz wejściowy) jest całkowalny z kwadratemf
  • załóżmy, że filtr dojeżdża do pracy z operatorem tłumaczenia , który mapuje obraz wejściowy na przetłumaczoną kopię samego siebie . Wyuczone jądro splotu (filtr) spełnia tę hipotezę.TtfTtf
  • załóżmy, że wszystkie filtry, nieliniowości i pule w twojej sieci spełniają tak zwany słaby warunek dopuszczalności , który jest w zasadzie pewnego rodzaju słabymi warunkami regularności i ograniczenia. Warunki te są spełnione przez wyuczone jądro splotu (o ile na każdej warstwie wykonywana jest pewna operacja normalizacyjna), ReLU, sigmoid, tanh itp., Nieliniowości oraz przez średnią pulę, ale nie przez maksymalną pulę. Obejmuje więc niektóre (nie wszystkie) architektury CNN w świecie rzeczywistym.
  • Załóżmy wreszcie, że każda warstwa ma współczynnik pulowania , tj. Pulowanie jest stosowane w każdej warstwie i skutecznie odrzuca informacje. Warunek wystarczyłby również dla słabszej wersji twierdzenia.nSn>1Sn1

Wskaż za pomocą wyjście warstwy CNN, gdy wejściem jest . Wreszcie:Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(potrójne słupki nie są błędem), co w zasadzie oznacza, że ​​każda warstwa uczy się cech, które stają się coraz bardziej niezmienne, a na granicy nieskończenie głębokiej sieci mamy doskonale niezmienną architekturę. Ponieważ CNN mają skończoną liczbę warstw, nie są one niezmiennie niezmienne w tłumaczeniu, co jest dobrze znane praktykom.

Odniesienia: T. Wiatowski i H. Bolcskei, A Mathematical Theory of Deep Convolutional Neural Networks for Extraction , arXiv: 1512.06293v3 .


Podsumowując, liczne granice błędu uogólnienia głębokiej sieci neuronowej opartej na wymiarze Vapnika-Chervonkensisa lub złożoności Rademachera rosną wraz z liczbą parametrów (niektóre nawet wykładniczo), co oznacza, że ​​nie potrafią wyjaśnić, dlaczego DNN działają tak dobrze w praktyce, nawet gdy liczba parametrów jest znacznie większa niż liczba próbek treningowych. W rzeczywistości teoria VC nie jest zbyt przydatna w głębokim uczeniu się.

I odwrotnie, niektóre wyniki z ubiegłego roku wiązały błąd uogólnienia klasyfikatora DNN z wielkością niezależną od głębokości i wielkości sieci neuronowej, ale zależną tylko od struktury zestawu treningowego i przestrzeni wejściowej. Zgodnie z kilkoma dość technicznymi założeniami dotyczącymi procedury uczenia się, zestawu treningowego i przestrzeni wejściowej, ale z bardzo małymi założeniami dotyczącymi DNN (w szczególności CNN są w pełni uwzględnione), to z prawdopodobieństwem co najmniej mamy1δ

GE2log2NyNγm+2log(1/δ)m

gdzie:

  • GE jest błędem uogólnienia, zdefiniowanym jako różnica między oczekiwaną stratą (średnia utrata wyuczonego klasyfikatora we wszystkich możliwych punktach testowych) a utratą empiryczną (tylko błąd dobrego zestawu treningowego)
  • Ny to liczba klas
  • m jest rozmiarem zestawu treningowego
  • Nγ jest liczbą obejmującą dane, wielkością związaną ze strukturą przestrzeni wejściowej i minimalnym odstępem między punktami różnych klas w zestawie treningowym. Odniesienie:

J. Sokolic, R. Giryes, G. Sapiro i M. Rodrigues. Błąd uogólnienia niezmiennych klasyfikatorów . W AISTATS, 2017

DeltaIV
źródło
2
+1. Świetna odpowiedź, ostatnia część jest bardzo intrygująca. W pierwszej części twierdzenie Mercera wygląda jak SVD, które przedstawiłeś powyżej.
ameba mówi Przywróć Monikę
1
@amoeba, masz rację, ale 1) nie wszyscy czytelnicy są tak matematyczni jak ty, że natychmiast rozpoznaliby podobieństwo między SVD, ekspansją Karhunena-Loeve'a i twierdzeniem Mercera. Również 2) inne twierdzenie z analizy funkcjonalnej, które „zasila” sztuczkę jądra, a którego nie zdecydowałem się włączyć, jest trudniejsze do wyjaśnienia niż twierdzenie Mercer'a, a ja już rozwaliłem swoją sobotę :-) Może dodam ją jutro!
DeltaIV
1
Gauss Markov wydaje się nie na miejscu, nigdy nie widział, aby ktokolwiek dbał o NIEBIESKI w społeczności ML.
Carlos Cinelli
2
Zgadzam się, że co do zasady oryginalne (archaiczne) odniesienie ma zwykle nużącą notację. To powiedziawszy, artykuł Mercera jest pod tym względem zaskakująco nowoczesny i właśnie dlatego go dodałem. :) (Powiedziałem pierwotnie, to bardzo dobra odpowiedź, to tylko komentarz po przegłosowaniu)
usεr11852 mówi Przywróć Monic
2
Podoba mi się tutaj twierdzenie Mercera, nie usuwaj go. A dlaczego nie mieć obu linków? Po prostu dodaj coś w stylu „ See [here] for a modern expositionlub na odwrót”.
ameba mówi Przywróć Monikę
11

Myślę, że następujące twierdzenie, na które się powołujesz, jest uważane za dość fundamentalne w nauce statystycznej.

Twierdzenie (Vapnik i Chervonenkis, 1971) Niech będzie klasą hipotez funkcji z dziedziny do i niech funkcją straty będzie strata . Następnie następujące są równoważne:HX{0,1}01

  1. H ma właściwość jednolitej zbieżności.
  2. H to PAC, którego można się nauczyć.
  3. H ma skończony wymiar VC.

Udowodniono w wersji ilościowej tutaj:

VN Vapnik i AY Chervonenkis: O jednolitej zbieżności względnych częstotliwości zdarzeń z ich prawdopodobieństwami. Teoria prawdopodobieństwa i jej zastosowania, 16 (2): 264–280, 1971.

Wersja sformułowana powyżej wraz z ładną prezentacją innych wyników teorii uczenia się jest dostępna tutaj :

Shalev-Shwartz, Shai i Shai Ben-David. Zrozumienie uczenia maszynowego: od teorii do algorytmów. Prasa uniwersytecka Cambridge, 2014.

Maszyna epsilon
źródło
6

Sztuczka jądra to ogólny pomysł, który jest używany w wielu miejscach i pochodzi z wielu abstrakcyjnych matematyki na temat Hilberta Spacesa. Zbyt wiele teorii, by napisać (skopiować ...) tutaj, aby znaleźć odpowiedź, ale jeśli przejrzysz to, możesz uzyskać dobry pomysł na jej rygorystyczne podstawy:

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf

Taimur
źródło
4

Moim ulubionym jest nierówność Krafta.

Twierdzenie: Dla dowolnej metody opisu dla skończonego alfabetu długość słowa musi spełniać nierówność .CA={1,,m}LC(1),,LC(2)xA2LC(x)1

Ta nierówność wiąże się z kompresją z gęstościami prawdopodobieństwa : biorąc pod uwagę kod, długość wyniku reprezentowanego przez ten kod jest ujemnym prawdopodobieństwem logicznym modelu zidentyfikowanego przez kod.

Co więcej, twierdzenie o braku darmowego lunchu dla uczenia maszynowego ma mniej znane twierdzenie o braku hiper kompresji, które stwierdza, że ​​nie wszystkie sekwencje można skompresować.

bayerj
źródło
4

Nie nazwałbym tego głównym twierdzeniem, ale myślę, że następujące (czasem określane jako uniwersalne twierdzenie aproksymacyjne) jest interesujące (i przynajmniej dla mnie zaskakujące), ponieważ podaje przybliżoną moc sprzężonych sieci neuronowych.

Twierdzenie: Niech będzie nietrwałą i monotynicznie rosnącą funkcją ciągłą. Dla każdej funkcji continuos i dowolnego istnieje liczba całkowita i wielowarstwowy perceptron z jedną ukrytą warstwą posiadającą neuronów, które mają jako aktywację działają tak, żeσf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
dla wszystkich .x[0,1]m

Oczywiście, ponieważ jest to stwierdzenie o istnieniu , jego wpływ na praktyków jest znikomy.

Dowód można znaleźć w Hornik, Aproximation Capabilities of Muitilayer Feedforward Networks, Neural Networks 4 (2), 1991,

Tobias Windisch
źródło
5
To twierdzenie jest nieco nieciekawe, ponieważ nie dotyczy szczególnie sieci neuronowych. Wiele innych klas funkcji ma podobne (a czasem silniejsze) właściwości aproksymacyjne. Zobacz na przykład twierdzenie Stone-Weierstrass. Bardziej interesującym rezultatem byłaby spójność regresji sieci neuronowej w ogólnych ramach. Ponadto muszą istnieć znane granice średniego błędu uogólnienia pod względem złożoności sieci i wielkości próbki treningowej.
Olivier
1
@Olivier: Całkowicie się zgadzam. Ale chociaż to twierdzenie nie dotyczy wyłącznie sieci neuronowych, nadal uważam je za stwierdzenie, jego rygorystyczny dowód i jego implikacje interesujące. Na przykład mówi, że tak długo, jak używasz funkcji aktywacji, która ma właściwości określone powyżej, przybliżone możliwości sieci są takie same (z grubsza). Lub, mówi, że sieci neuronowe są skłonne do nadmiernego dopasowania, ponieważ można się wiele nauczyć już z jedną ukrytą warstwą.
Tobias Windisch
1
To nie mówi dokładnie tego. Mówi tylko, że istnieje sieć neuronowa z jedną ukrytą warstwą, która może reprezentować , ale nie mówi nic o tym, jak rośnie na przykład z lub z pewną miarą złożoności (na przykład jego całkowitej zmienności ). Nie mówi ci, czy możesz się wagi swojej sieci, biorąc pod uwagę dane. Przekonasz się, że w wielu interesujących przypadkach jest wykładniczo większy dla sieci z jedną warstwą ukrytą niż dla sieci wielowarstwowych (głębokich). Dlatego nikt nie używa sieci z jedną ukrytą warstwą dla ImageNet lub Kaggle. fNmflearnN
DeltaIV
@DeltaIV: W ostatnim zdaniu mojego poprzedniego komentarza jest literówka: słowo „ucz się” powinno być w rzeczywistości „przybliżone” (w przeciwnym razie moje stwierdzenie o „przeuczeniu” nie miałoby sensu). Dziękuję za podpowiedź!
Tobias Windisch
Tak, zinterpretowałem to w sensie „zbliżenia”. Chodzi mi o to, że nawet jeśli wiesz, że możesz teoretycznie przybliżyć dowolną funkcję (na ograniczonym hipersześcianie) za pomocą jednej ukrytej warstwy NN, w praktyce w wielu przypadkach jest ona bezużyteczna. Kolejny przykład: Procesy Gaussa z kwadratowym jądrem wykładniczym mają uniwersalną właściwość aproksymacji, ale nie wyeliminowały wszystkich innych metod regresji, również z tego powodu, że w przypadku niektórych problemów liczba próbek potrzebnych do dokładnego aproksymacji rośnie wykładniczo.
DeltaIV