Tak jest w większości przypadków. Modele do głębokiego uczenia się, nawet te płytkie, takie jak piętrowe auto-kodery i sieci neuronowe, nie są w pełni zrozumiałe. Staramy się zrozumieć, co dzieje się z procesem optymalizacji dla tak złożonej funkcji intensywnie zmiennej. Ale to trudne zadanie.
Jednym ze sposobów wykorzystywanych przez naukowców do odkrywania, jak działa głębokie uczenie się, jest stosowanie modeli generatywnych. Najpierw szkolimy algorytm uczenia się i upośledzamy go systematycznie, prosząc go o generowanie przykładów. Obserwując wygenerowane przykłady, będziemy mogli wywnioskować, co dzieje się w algorytmie na bardziej znaczącym poziomie. Jest to bardzo podobne do używania inhibitorów w neuronauce, aby zrozumieć, do czego wykorzystywane są różne składniki mózgu. Na przykład wiemy, że kora wzrokowa jest tam, gdzie jest, ponieważ jeśli ją uszkodzimy, stracisz wzrok.
Kluczowym pytaniem, które pozostaje w teorii głębokiego uczenia się, jest to, dlaczego tak ogromne modele (o wiele więcej parametrów niż punktów danych) nie pasują do zestawów danych, których używamy.
Klasyczna teoria oparta na miarach złożoności nie wyjaśnia zachowania praktycznych sieci neuronowych. Na przykład szacunki wymiaru VC dają puste granice uogólnienia. O ile mi wiadomo, najściślejsze (górne i dolne) granice wymiaru VC podano w [1] i są one rzędu liczby wag w sieci. Oczywiście ta najgorsza złożoność przypadku nie może wyjaśnić, w jaki sposób np. Duża resnet generalizuje się na CIFAR lub MNIST.
Ostatnio podjęto inne próby zapewnienia uogólnienia dla sieci neuronowych, na przykład poprzez odniesienie do jądra stycznej neuronowej lub różne normalne miary dotyczące wag. Odpowiednio okazało się, że nie mają one zastosowania do sieci o praktycznych rozmiarach i mają inne niezadowalające właściwości [2].
Istnieją pewne prace w ramach PAC Bayesa dla niepustych granic, np. [3]. Te konfiguracje wymagają jednak pewnej wiedzy o przeszkolonej sieci, a zatem różnią się smakiem od klasycznej analizy PAC.
Niektóre inne aspekty:
optymalizacja: jak uzyskać „dobre” rozwiązania z opadania gradientu na tak niewypukły problem? (Istnieje kilka odpowiedzi na to w najnowszej literaturze)
interpretowalność: czy możemy wyjaśnić na poziomie intuicyjnym, co sieć „myśli”? (Nie moja okolica)
(niekompletne) odniesienia:
źródło
Chciałbym zaznaczyć, że nie ma dobrej teorii, dlaczego uczenie maszynowe działa ogólnie. Granice VC nadal zakładają model, ale rzeczywistość nie pasuje do żadnej z tych matematycznych ideałów. Ostatecznie, jeśli chodzi o aplikację, wszystko sprowadza się do wyników imperialnych. Nawet ilościowe podobieństwo między obrazami przy użyciu algorytmu zgodnego z intuicyjnym zrozumieniem ludzi jest naprawdę trudne
W każdym razie NN nie działa dobrze w pełni połączonej formie. Wszystkie udane sieci mają wbudowaną regulację w architekturze sieci (CNN, LSTM itp.).
źródło