Dlaczego tak ważne jest posiadanie zasadniczych i matematycznych teorii uczenia maszynowego?

25

Zastanawiam się, dlaczego tak ważne jest posiadanie zasadniczego / teoretycznego uczenia maszynowego? Z osobistego punktu widzenia, jako człowiek, rozumiem, dlaczego uczenie maszynowe oparte na zasadach jest tak ważne:

  • ludzie lubią rozumieć, co robią, my rozumiemy piękno i satysfakcję.
  • z teoretycznego punktu widzenia matematyka jest zabawna
  • kiedy istnieją zasady, które kierują projektowaniem rzeczy, mniej czasu spędza się na losowym zgadywaniu, dziwnych próbach i błędach. Gdybyśmy zrozumieli, powiedzmy, jak naprawdę działają sieci neuronowe, być może moglibyśmy poświęcić znacznie więcej czasu na ich projektowanie, niż na ogromne ilości prób i błędów, które się w tym momencie pojawiają.
  • ostatnio, jeśli zasady są jasne, a teoria również, to powinna być (mam nadzieję) większa przejrzystość systemu. Jest to dobre, ponieważ jeśli zrozumiemy, co działa system, wtedy AI ryzykuje, że wiele osób o tym hype prawie natychmiast znika.
  • zasady wydają się być zwięzłym sposobem na podsumowanie ważnych struktur, jakie może mieć świat i kiedy używać narzędzia zamiast innego.

Czy jednak te powody są wystarczająco silne, aby uzasadnić intensywne teoretyczne studium uczenia maszynowego? Jedną z największych krytyk teorii jest to, że ponieważ jest to tak trudne, zwykle kończą się badaniem bardzo ograniczonego przypadku lub założeń, które należy zasadniczo przyjąć, aby wyniki były bezużyteczne. Myślę, że kiedyś to słyszałem podczas przemówienia twórcy Tora w MIT. To, że część krytyki Tora, którą usłyszał, jest teoretycznym argumentem, ale w gruncie rzeczy ludzie nigdy nie są w stanie udowodnić rzeczy na temat prawdziwych scenariuszy z prawdziwego życia, ponieważ są tak skomplikowane.

W nowej erze z tak dużą mocą obliczeniową i danymi możemy testować nasze modele przy użyciu prawdziwych zestawów danych i zestawów testowych. Możemy sprawdzić, czy wszystko działa, używając empiryzmu. Jeśli zamiast tego możemy osiągnąć AGI lub systemy współpracujące z inżynierią i empiryzmem, czy warto nadal stosować zasadnicze i teoretyczne uzasadnienie uczenia maszynowego, szczególnie gdy trudno jest osiągnąć granice ilościowe, ale intuicje i odpowiedzi jakościowe są o wiele łatwiejsze osiągnąć dzięki podejściu opartemu na danych? Takie podejście nie było dostępne w klasycznej statystyce, dlatego uważam, że teoria była w tamtych czasach tak ważna, ponieważ matematyka była jedynym sposobem, aby upewnić się, że wszystko jest poprawne lub że faktycznie działało tak, jak myśleliśmy.

Osobiście zawsze kochałem teorię i uważałem, że ważne jest podejście oparte na zasadach. Ale fakt, że mogę po prostu wypróbować rzeczywiste dane i moc obliczeniową, sprawił, że zastanawiam się, czy wysoki wysiłek (i potencjalnie niskie nagrody) teoretycznej realizacji jest nadal tego wart.

Czy teoretyczna i oparta na zasadach nauka maszynowa jest tak ważna?

Charlie Parker
źródło
„Bez teorii polegasz na nadziei, że wyniki empiryczne będą mieć zastosowanie do każdego nowego zestawu danych, w którym zastosujesz metody ML. Jednak niektóre właściwości lub założenia, które zdarzyły się, gdy zaobserwowałeś swoje wyniki empiryczne, niekoniecznie muszą iść naprzód w sprawie nowych zestawów danych ”.
Charlie Parker

Odpowiedzi:

17

Nie ma na to właściwej odpowiedzi, ale może „wszystko z umiarem”. Podczas gdy wiele ostatnich ulepszeń w uczeniu maszynowym, tj. Porzucanie, resztkowe połączenia, gęste połączenia, normalizacja partii, nie są zakorzenione w szczególnie głębokiej teorii (większość można uzasadnić w kilku akapitach), myślę, że ostatecznie istnieje wąskie gardło dla ilu takie wyniki mogą wywrzeć ogromny wpływ. W pewnym momencie musisz usiąść i wypracować dodatkową teorię, aby wykonać kolejny wielki skok. Teoria może również prowadzić intuicję, ponieważ może udowodnić jakość lub ograniczenia modelu z uzasadnioną wątpliwością. Jest to szczególnie ważne przy ustalaniu, jeśli powiedzmy, że SGD jest lepszy niż Momentum w przypadku konkretnego problemu. To miło w teorii: zmusza cię do abstrakcji problemu, który rozwiązujesz,

Wielkim przykładem, który przychodzi mi na myśl, jest obsługa maszyn wektorowych. Zostały one pierwotnie opracowane przez Vapnika i Chervonenkisa na początku lat 60., ale naprawdę rozpoczęły się na początku lat 90., kiedy Vapnik i inni zdali sobie sprawę, że można wykonywać nieliniowe maszyny SVM za pomocą sztuczki jądra. Vapnik i Chervonenkis opracowali również teorię dotyczącą wymiaru VC, która jest próbą wymyślenia miary złożoności uczenia maszynowego. Nie mogę wymyślić żadnego praktycznego zastosowania wymiaru VC, ale myślę, że na pomysł SVM prawdopodobnie wpłynęła ich praca nad tym. Sam Kernel Trick wywodzi się z abstrakcyjnie bezsensownej matematyki o przestrzeniach Hilberta. Powiedzieć, że trzeba wymyślić ten abstrakcyjny bzdur, trzeba wymyślić SVM, ale myślę, że to trochę pomogło, zwłaszcza, że ​​wielu matematyków było podekscytowanych uczeniem maszynowym.

Jeśli chodzi o ResNet, ostatnio pojawiło się kilka naprawdę fajnych prac sugerujących, że architektury Residual naprawdę nie muszą mieć głębokości setek warstw. W rzeczywistości niektóre prace sugerują, że rezydualne połączenia są bardzo podobne do RNN, na przykład Niwelowanie różnic między uczeniem resztkowym, nawracającymi sieciami neuronowymi a korą wzrokową ”, Liao i in. Myślę, że zdecydowanie warto przyjrzeć się temu głębiej, ponieważ sugeruje, że teoretycznie ResNet z wieloma warstwami jest w rzeczywistości niesamowicie nieefektywny i nadęty.

Pomysły na obcinanie gradientu dla RNN były bardzo dobrze uzasadnione w znanym już artykule „ O trudnościach w uczeniu się nawracających sieci neuronowych ” - Pascanu i in. glin. Chociaż prawdopodobnie możesz wymyślić obcinanie gradientu bez całej teorii, myślę, że daleko mu do zrozumienia, dlaczego RNN są tak cholernie trudni do trenowania bez robienia czegoś wymyślnego, szczególnie poprzez rysowanie analogii do dynamicznych map systemowych (jak w powyższym artykule) ).

Jest wiele emocji związanych z metodami Entropii Stochastic Gradient Descent . Pochodzą one z dynamiki Langevina, a wiele wyników teoretycznych jest mocno zakorzenionych w klasycznej teorii PDE i fizyce statystycznej. Wyniki są obiecujące, ponieważ rzucają SGD w nowe światło, jeśli chodzi o to, jak utknie w lokalnych fluktuacjach funkcji straty i jak można lokalnie wygładzić funkcję straty, aby SGD była znacznie bardziej wydajna. Wiele wiadomo na temat tego, kiedy SGD jest przydatne, a kiedy źle się zachowuje. Nie jest to coś, co można uzyskać empirycznie, wypróbowując SGD na różnych modelach.

W artykule Intrygujące właściwości sieci neuronowych autorzy podsumowują, że sieci neuronowe są wrażliwe na przeciwne przykłady (zdefiniowane jako obliczone, fałszywe zaburzenia obrazu) ze względu na wysokie stałe Lipchitza między warstwami. Jest to nadal aktywny obszar badań i można go lepiej zrozumieć tylko dzięki bardziej teoretycznym pochodnym.

Jest też przykład analizy danych topologicznych , wokół której utworzyła się co najmniej jedna firma ( Ayasdi ). Jest to szczególnie interesujący przykład, ponieważ zastosowane w nim techniki są tak specyficzne i abstrakcyjne, że nawet od dzisiaj zajmie dużo czasu, aby zobaczyć, gdzie kończą się pomysły z tej teorii. Rozumiem, że złożoność obliczeniowa algorytmów jest na ogół dość wysoka (ale z drugiej strony była równie wysoka dla sieci neuronowych nawet 20 lat temu).

Alex R.
źródło
7

Odpowiedź na to pytanie jest w rzeczywistości bardzo prosta. Dzięki teoretycznemu uzasadnieniu leżącemu u podstaw modelu uczenia maszynowego możemy przynajmniej udowodnić, że przy spełnieniu pewnych bardziej lub mniej realistycznych warunków istnieją pewne gwarancje optymalności rozwiązania. Bez tego nie mamy żadnych gwarancji. Jasne, możesz powiedzieć „po prostu sprawdźmy, co działa i wykorzystajmy go do konkretnego problemu”, ale nie jest to wykonalne, ponieważ istnieje nieskończona liczba sposobów rozwiązania dowolnego problemu uczenia maszynowego.

YXX+42X+42,5X-4242XX+420

Tim
źródło
2
sprawdza, czy Twój wyszkolony model działa na sprawdzaniu poprawności i czy zestawy testowe nie wystarczają? Na przykład, jakie gwarancje mają teoretyczne granice, jeśli ich granice nie mogą być faktycznie wykorzystane?
Charlie Parker,
6
X+dodo(-,)
5

Wystarczy spojrzeć na pytanie: czy teoretyczne i oparte na zasadach uczenie się maszyn jest naprawdę tak ważne?

Zdefiniuj, co rozumiesz przez „ważny”. Z filozoficznego punktu widzenia jest to podstawowe rozróżnienie, jeśli chcesz coś opisać lub coś zrozumieć. W dość prymitywnej odpowiedzi jest to różnica między byciem naukowym lub czymś innym. Część praktyczna nie ma związku z podstawowym pytaniem. Jeśli coś jest zbyt trudne do udowodnienia, a nawet niemożliwe do udowodnienia, samo w sobie jest ważnym odkryciem. (Enter Goedel i in.) Ale to nie znaczy, że nie ma to znaczenia. Może to wydawać się nieistotne z pragmatycznego punktu widzenia. Ale należy to przynajmniej uznać za coś o zasadniczym znaczeniu i wartości.

Rozważmy analogię: medycyna jako całość (i z przeszłości) nie jest naukowa. Pod pewnymi względami tak naprawdę nigdy nie może być. Jest to dyscyplina, która całkowicie rządzi się jej wynikiem. W większości przypadków nie ma czegoś takiego jak „prawda”. Okazuje się jednak, że niektóre części mogą być naukowe - i właśnie tam dzieje się większość planowanych postępów.

Innym bardzo krótkim opisem może być: bez teorii można zarobić dużo pieniędzy. Jeśli jest to naprawdę przydatne dla „większego dobra”, możesz nawet otrzymać za to nagrodę Nobla. Ale nigdy nie zdobędziesz medalu Fields.

cherub
źródło
1
+1 Uważam, że jest to interesująca odpowiedź na PO, ale chciałbym prosić o rozwinięcie medycyny jako nienaukowej. Czy proces diagnostyczny polegający na ustaleniu, co cierpi pacjent, nie jest procesem, w którym zakłada się diagnozę różnicową (teoretyczna koncepcja podejrzanych chorób) i gromadzenie danych w celu przewidzenia, która choroba jest najbardziej prawdopodobna? ...
IWS,
(kont.) ... czy nie istnieją prognozy, w których lekarze próbują oszacować przyszły przebieg choroby na podstawie dostępnych danych, które można i zwykle sprawdzają na podstawie obserwacji i wyników badań empirycznych? I wreszcie, czy nauka jest poszukiwaniem jakiejś wyższej, ale istniejącej prawdy, czy też zbliżamy się do konstruktu prawdy, który naszym zdaniem jest teraz obecny?
IWS,
W rzeczywistości kwestia medycyny sięga nieco głębiej. Nauka jest w zasadzie tylko metodą lub procesem. Aby nauka „działała”, musisz mieć umiejętność testowania hipotez na równych podstawach z nieodłączną możliwością fałszowania. Krótko mówiąc: jeśli nie możesz udowodnić, że teoria jest błędna, jest ona nienaukowa. W przypadku medycyny ma to zbyt wiele implikacji etycznych, a ponieważ nie można leczyć kogoś w tym samym czasie za pomocą różnych opcji, testowanie hipotez jest naprawdę trudne. [...]
cherubin
Jeśli chodzi o drugą część (nauka jako poszukiwanie prawdy) - znowu, to tylko metoda. Wydaje się, że jest to najskuteczniejsza metoda, jaką ludzkość wymyśliła. Ale to nie jest oparte na wierze, jest oparte na faktach. I pod pewnymi względami jest to również system zamknięty. Nie ma (naukowego) rozróżnienia między prawdą a konstrukcją, która wydaje się być taka sama. Porozumienie między naukowcami może dać ci pewne praktyczne zasady (np. Razors Razor), ale nauka nie jest kompasem w morzach nienauki.
cherubin,
5

Ludzie byli w stanie budować statki, powozy i budynki od stuleci bez praw fizyki. Ale od czasów współczesnej nauki byliśmy w stanie przenieść te technologie na zupełnie nowy poziom. Sprawdzona teoria pozwala wprowadzać ulepszenia w sposób zgodny z zasadami. Nigdy nie dotarlibyśmy na Księżyc ani nie mielibyśmy komputerów bez matematycznej teorii materii i obliczeń.

Uczenie maszynowe to kolejna dziedzina nauki i inżynierii, jak każda inna. Zasadnicze podejście do uczenia maszynowego zapewniło nam maszyny jądra, ustrukturyzowane uczenie się i metody grupowania (zwiększanie liczby losowych lasów).

jpmuc
źródło
5

Oto prosty przykład z mojej własnej pracy.

Dopasowuję wiele sieci neuronowych do ciągłych wyników. Wagi określa się na podstawie propagacji wstecznej. W końcu zbiegnie się.

(ZAT.ZA)-1ZAT.y
ZAy

Moja sieć zbiega się znacznie szybciej .

Dziękuję teorię.

użytkownik_ogólny
źródło
3

Empiryzm a teoria

Napisałeś:

Jedną z największych krytyk teorii jest to, że ponieważ jest to tak trudne, zwykle kończą się badaniem bardzo ograniczonego przypadku lub założeń, które należy zasadniczo przyjąć, aby wyniki były bezużyteczne.

Myślę, że to pokazuje główną różnicę między dwoma poglądami, które możemy nazwać empirycznymi i teoretycznymi .

Z empirycznego punktu widzenia, jak również opisałeś, twierdzenia są bezużyteczne, ponieważ nigdy nie są wystarczająco złożone, aby modelować rzeczywisty świat. Mówią o uproszczonych idealnych scenariuszach, które nie mają zastosowania nigdzie w prawdziwym świecie. Jaki jest sens robienia teorii.

Jednak z teoretycznego punktu widzenia jest odwrotnie. Czego empiryzm może nas nauczyć poza „Uruchomiłem tę metodę na tym zbiorze danych i było to lepsze niż uruchomienie innej metody na tym samym zbiorze danych”. Jest to przydatne w jednym przypadku, ale niewiele mówi o problemie.

Teoria ta daje pewne gwarancje. Pozwala nam również dokładnie przestudiować uproszczone scenariusze, abyśmy mogli zacząć rozumieć, co się dzieje.

Przykład

Wyobraź sobie prawdziwy przykład: chcesz zobaczyć, jak dryf koncepcji (gdy dane zmieniają się w czasie) wpływa na twoją zdolność uczenia się. Jak czysty empirysta podejmie to pytanie? Jedyne, co potrafi, to zacząć stosować różne metody i myśleć o sztuczkach, które potrafi. Cała procedura może być podobna do tej:

  • Poświęć ostatnie 300 dni i spróbuj wykryć, czy zmieniła się średnia tej zmiennej. OK, to trochę działało.
  • Co, jeśli zamiast tego spróbujemy 200 dni?
  • OK lepiej, spróbujmy zmienić algorytm po wystąpieniu znoszenia.
  • Uzyskaj więcej zestawów danych i sprawdź, która metoda opracowana do tej pory działa najlepiej.
  • Wyniki nie są rozstrzygające, być może przypuszczasz, że dzieje się więcej niż jeden rodzaj dryfu koncepcji?
  • Wypróbuj symulacje. Co jeśli symulujemy pewne odchylenie koncepcji, a następnie zastosujemy różne metody przy użyciu różnej liczby dni używanych do wykrycia, czy nastąpiła zmiana.

Mamy tutaj dość precyzyjne wyniki na kilku zestawach danych. Być może dane były takie, że aktualizacja algorytmu uczenia się na podstawie obserwacji z 200 ostatnich dni dała najwyższą dokładność. Ale czy to samo zadziała w przypadku innych danych? Jak wiarygodny jest ten szacunkowy 200 dni? Symulacje pomagają - ale nie odzwierciedlają rzeczywistego świata - ta sama teoria problemów.

Teraz wyobraź sobie to samo z teoretycznego punktu widzenia:

  • Uprość scenariusz do absurdalnego poziomu. Może zastosować 2-zmienny rozkład normalny ze średnią zmieniającą się nagle w czasie.
  • Wyraźnie wybieraj swoje warunki - wybierz model optymalny dla normalnych danych. Załóżmy, że wiesz, że dane są normalne. Nie wiesz tylko, kiedy nastąpi zmiana środków.
  • Wprowadź metodę wykrywania, kiedy nastąpiło przesunięcie. Ponownie można rozpocząć od 200 poprzednich obserwacji.
  • W oparciu o te ustawienia powinniśmy być w stanie obliczyć średni błąd klasyfikatora, średni czas potrzebny algorytmowi na wykrycie, czy nastąpiła zmiana i aktualizację. Być może najgorsze scenariusze i gwarancje w granicach 95% szansy.

Teraz ten scenariusz jest jaśniejszy - udało nam się wyodrębnić problem, naprawiając wszystkie szczegóły. Znamy średni błąd naszych klasyfikatorów. Potrafi prawdopodobnie oszacować liczbę dni potrzebnych do wykrycia, że ​​nastąpiła zmiana. Zmniejsz, od jakich parametrów to zależy (np. Może rozmiar zmiany). A teraz oparte na czymś tworzą praktyczne rozwiązanie. Ale co najważniejsze: ten wynik (jeśli poprawnie obliczony) pozostaje niezmienny. Jest tu na zawsze i każdy może się z niego uczyć.

Jak jeden z ojców współczesnego uczenia maszynowego - Jürgen Schmidhuber lubi mówić:

Heurystyka przychodzi i odchodzi - twierdzenia są na wieczność.

Lekcje z innych dziedzin

Również krótko chciałem wspomnieć o pewnych podobieństwach do fizyki. Myślę, że oni również mieli ten dylemat. Fizycy badali beztarciowe obiekty o nieskończonej masie poruszające się w nieskończonej przestrzeni. Na pierwszy rzut oka to może nam powiedzieć o rzeczywistości, w której chcemy wiedzieć, jak płatki śniegu poruszają się na wietrze. Ale wydaje się, że teoria niosła je dość daleko.

Karolis Koncevičius
źródło
2

Wymieniłeś niektóre powody, z których moim zdaniem najważniejsza jest umiejętność interpretacji wyników ML. Powiedzmy, że strażnik własności napędzany AI postanowił zastrzelić psa sąsiada. Ważne byłoby, aby zrozumieć, dlaczego tak się stało. Jeśli nie zapobiegnie to w przyszłości, przynajmniej zrozumiesz, kto jest odpowiedzialny, a kto zapłaci właścicielowi odszkodowanie.

Jednak dla mnie najważniejszym powodem jest to, że zrozumienie zasad, na których opiera się algorytm, pozwala zrozumieć jego ograniczenia i poprawić jego wydajność. Rozważ zastosowanie odległości euklidesowej w ML. W wielu algorytmach grupowania zaczynasz od zdefiniowania odległości między przykładami, a następnie znajdujesz granicę między cechami przykładów, które grupują ich bliskość. Po zwiększeniu liczby funkcji odległość euklidesowa przestaje działać w pewnym momencie. Możesz spędzić dużo czasu próbując go uruchomić, lub - jeśli wiesz, że odległość euklidesowa jako miara bliskości nie działa w nieskończonym limicie wymiarowym - po prostu przełącz się na inną metrykę odległości, taką jak Manhattan, a następnie przejdź do pracy na prawdziwe problemy. Możesz znaleźć mnóstwo przykładów takich jak ten,

Aksakal
źródło
2
Przed słyszałem to stwierdzenie, ale nie sądzę, jestem świadomy jakiegokolwiek konkretnego przykładu byłoby wykazać, że w ten sposób: czy jest przykładem pewnych danych, które nie są grupowania dobrze z odległości euklidesowych, ale grupowanie dobrze z odległości Manhattan?
ameba mówi Przywróć Monikę
1
@amoeba tutaj jest wspólne odniesienie, chociaż natknąłem się na to wcześniej w innym kontekście. Jeśli spojrzysz na stosunek objętości hipersfery wewnątrz hiperszezy jednostkowej, kurczy się ona do zera, gdy wymiar hiperszezy dochodzi do nieskończoności. Zasadniczo w wyższych wymiarach wszystkie ciała wypukłe
rozpadają się
2

Myślę, że bardzo trudno jest nie być dyskusją filozoficzną. Moja odpowiedź jest tak naprawdę przeformułowaniem dobrych punktów, o których już tu wspominałem (+1 dla wszystkich); Chciałbym tylko wskazać na cytat Andrew Gelmana, który tak naprawdę mówił do mnie jako ktoś, kto kształcił się jako informatyk. Mam wrażenie, że wiele osób, które nazywają to, czym się uczą, również pochodzi z informatyki. Cytat pochodzi z przemówienia, które Gelman wygłosił podczas konferencji New York R w 2017 r., Zatytułowanej Theoretical Statistics to Theory of Applied Statistics :

Teoria jest skalowalna.

Teoria mówi ci, co ma sens, a co nie pod pewnymi warunkami. Czy chcemy wykonać tysiące, dziesiątki tysięcy lub miliony symulacji, aby poznać prawdę? Czy chcemy przeprowadzać porównania empiryczne na coraz większej liczbie zestawów danych? To zajmie trochę czasu, a nasze wyniki mogą być nadal kruche. Ponadto, skąd wiemy, że dokonywane przez nas porównania mają sens? Skąd wiemy, że nasz nowy Deep Learner z dokładnością 99,5% jest naprawdę lepszy od starego, który miał 99,1% dokładności? Pomoże tu trochę teorii.

Jestem wielkim fanem symulacji i używam ich często, aby zrozumieć świat (a nawet zrozumieć teorię), ale teoretyczne uczenie maszynowe to teoria stosowanego uczenia maszynowego.

einar
źródło