W jakim stopniu „zaawansowana matematyka” jest potrzebna / przydatna w badaniach nad AI?

19

Obecnie studiuję matematykę. Jednak nie sądzę, żebym chciał zostać zawodowym matematykiem w przyszłości. Zastanawiam się nad wykorzystaniem mojej wiedzy z matematyki do badań nad sztuczną inteligencją. Nie jestem jednak pewien, ile kursów matematyki powinienem odbyć. (I które kursy teorii CS powinienem śledzić.)

Z Quora dowiedziałem się, że przedmioty Algebra liniowa, statystyka i optymalizacja wypukła są najbardziej odpowiednie dla uczenia maszynowego (patrz to pytanie). Ktoś inny wspomniał, że nauka algebry liniowej, prawdopodobieństwa / statystyki, rachunku różniczkowego, podstawowych algorytmów i logiki jest potrzebna do badania sztucznej inteligencji (patrz to pytanie).

Mogę dowiedzieć się o wszystkich tych przedmiotach w ciągu pierwszych 1,5 roku licencjatu z matematyki na naszym uniwersytecie.

Zastanawiałem się jednak, czy istnieją jakieś przedmioty matematyczne dla studentów wyższych uczelni, które są przydatne lub nawet potrzebne do badania sztucznej inteligencji. Co z ODE, PDE, topologią, teorią pomiaru, analizą liniową, analizą Fouriera i analizą na kolektorach?

Jedną książką, która sugeruje, że pewna dość zaawansowana matematyka jest przydatna w badaniu sztucznej inteligencji, jest Teoria Wzorów : Stochastyczna Analiza Sygnałów z Rzeczywistego Świata Davida Mumforda i Agnes Desolneux (patrz ta strona). Obejmuje rozdziały o łańcuchach Markowa, modelach Gaussa w kawałkach, polach Gibbsa, kolektorach, grupach kłamstw i algebrach Liego oraz ich zastosowania w teorii wzorców. W jakim stopniu ta książka jest przydatna w badaniach nad AI?

Max Muller
źródło
22
przez ponad 2 lata na tej stronie widziałem ponad pół tuzina pytań typu „do czego potrzebuję matematyki ...”. Que odpowiedzi, które brzmią jak zawartość Princeton Companion to Mathematics. 1) AI jest ogromnym polem, matematyka używana w jej polach jest dostępna we wszystkich smakach; 2) Weź podstawowe kursy matematyczne, wybierz bardziej zaawansowane kursy oparte na zainteresowaniach; 3) Przeprowadź badania w AI, znajdź to, co lubisz, znajdź tam matematykę; 4) Nie możemy wiedzieć, jaka matematyka przyda się w przypadku tego lub innego problemu.
Sasho Nikolov

Odpowiedzi:

57

Nie chcę brzmieć protekcjonalnie, ale matematyka, którą studiujesz na studiach licencjackich, a nawet na studiach magisterskich, nie jest zaawansowana. To są podstawy . Tytuł twojego pytania powinien brzmieć: Czy „podstawowa” matematyka jest potrzebna / przydatna w badaniach nad AI? Więc pożeraj tyle, ile możesz, nigdy nie spotkałem informatyka, który narzekałby na zbyt dużą wiedzę matematyczną, chociaż spotkałem wielu, którzy narzekali na zbyt małą wiedzę na ten temat. Pamiętam, jak pomagałem innym studentom AI w zrozumieniu algorytmu w stylu rankingu strony. To była dla mnie jakaś dość łatwa algebra liniowa, ale cierpiał, ponieważ nie miał pojęcia o wartościach własnych i wektorach własnych. Wyobraź sobie, co ludzie AI mogliby zrobić, gdyby znali dużo matematyki!

Uczę na wydziale matematyki i regularnie otrzymuję prośby od moich kolegów z CS, aby polecili kierunki matematyczne dla doktorantów CS, ponieważ wolą studentów matematyki. Widzisz, matematyki jest naprawdę bardzo trudne do nauczenia się na własną rękę, ale większość aspektów informatyki nie. Wiem, byłem studentem matematyki, który dostał się do szkoły wyższej. Jasne, byłem „w tyle” za znajomością systemów operacyjnych (pomimo przyzwoitej znajomości systemów Unix i VMS), ale byłem daleko w tyle, jeśli chodzi o „teorię”. To nie jest sytuacja symetryczna.

Andrej Bauer
źródło
6
teoria miary i teoria prawdopodobieństwa są podstawą całego rozumowania probabilistycznego. topologia stała się bardzo ważna dla analizy danych topologicznych. Analiza Fouriera jest ważna dla teorii uczenia się (służy do zrozumienia wrażliwości funkcji i tego, jak trudno jest się ich nauczyć), a różnorodne uczenie się wymaga głębokiego zrozumienia różnorodnej geometrii.
Suresh Venkat
2
@MaxMuller: Aby kontynuować listę, teoria grup i algebraika (jak algebry Liego) są szeroko stosowane w rozpoznawaniu wzorców w teorii rozkładu obrazów, w których topologia jest bardzo wymagana (i istnieje ścisły związek między algebrami Liego i rozmaitościami, które musisz uczyć się po drodze). Książki takie jak „Fundamentals of Pattern Recognition” Monique Pavel wprowadzą Cię nawet w teorię kategorii i jej zastosowanie, co jest również niezwykle ważne w sztucznej inteligencji, ponieważ wykorzystuje się ją w podstawach języków formalnych i teorii dowodów (która może być teorią rozumowania). ...
ex0du5,
1
Po wstępnych kursach wstępnych matematycy uczą się matematyki na własną rękę (lub w grupach czytelniczych i na seminariach) .. nie jest to takie trudne, jeśli masz jakieś podstawy ... ok, może być ciężko, ale nie jest niemożliwe.
Sasho Nikolov
1
Max, również uczę aikido. Nie przypominam sobie, aby studenci aikido pytali „dlaczego muszę nauczyć się podstaw (jak upaść, jak wyjść z linii ataku)?” Czasami trzeba trochę zaufać, że nauczyciele wiedzą, co robią. Będę jednak pierwszym, który przyzna, że ​​uczymy dużo badziewia, zwłaszcza w szkołach średnich i podstawowych, w których matematyki uczy się tak, jakby celem było zdławienie ciekawości uczniów. Ale w twoim przypadku tematy, które wymieniłeś, nie są bzdurami. Zaufaj mi.
Andrej Bauer,
13
I jeszcze jeden komentarz. Jeśli nauczysz się tylko matematyki, która okazała się już przydatna w niektórych obszarach CS, nigdy nie będziesz mieć szansy na zastosowanie nowej matematyki. Zawsze będziesz w tyle. Nauka to sztuka, a nie praca od 9 do 5. Jeśli zapytasz mnie „czy powinienem nauczyć się fizyki, chcę wejść w AI”, powiem „absolutnie tak!” A jeśli zapytacie „czy powinienem nauczyć się socjologii, chcę wejść w AI”, moja odpowiedź pozostanie taka sama.
Andrej Bauer,
6

Max, oto (koniecznie) częściowa lista:

Wszędzie potrzebna jest podstawowa algebra liniowa i prawdopodobieństwo. Przypuszczam, że nie potrzebujesz do tego referencji.

Według mojej wiedzy analiza Fouriera została wykorzystana w niektórych badaniach związanych z teorią uczenia się. Sprawdź na przykład ten artykuł .

Koncepcja różnorodnego uczenia się staje się popularna i możesz zacząć przyglądać się twórczości Michaiła Belkina i Parthy Niyogi. Ta linia pracy wymaga zrozumienia różnych pojęć związanych z rozmaitościami i geometrią riemannowską.

Istnieje jeszcze jeden aspekt uczenia maszynowego, który ma głębsze korzenie w statystykach, a mianowicie w geometrii informacji. Obszar ten wiąże się z różnymi koncepcjami geometrii Riemanniana, teorii informacji, informacji Fishera itp. Kuzyn tego rodzaju badań można znaleźć w statystyce algebraicznej - która jest rodzącym się polem o dużym potencjale.

Sumio Watanabe, badając inną granicę, a mianowicie, istnienie osobliwości w modelach uczenia się i jak zastosować głębokie wyniki rozdzielczości z geometrii algebraicznej, aby odpowiedzieć na wiele pytań. Wyniki Watanabe czerpią głównie ze słynnej pracy Heisuke Hironaki, która zdobyła mu medal Fields.

Przypuszczam, że pomijam wiele innych obszarów, które wymagają stosunkowo ciężkiej matematyki. Ale jak zauważył Andrej, większość z nich prawdopodobnie nie leży na pograniczu matematyki, ale jest stosunkowo starszą i ustaloną domeną.

W każdym razie jednak przypuszczam, że obecny stan sztucznej inteligencji, który wszedł do głównego nurtu informatyki - na przykład w systemach rekomendacji w Amazon lub bibliotekach uczenia maszynowego w Apache Mahout, nie wymaga zaawansowanej matematyki. Mogę się mylić.

Arnab
źródło
2

Zależy od twojej definicji zaawansowanego i jakiego rodzaju sztucznej inteligencji chcesz się uczyć.

Wiele problemów w AI jest możliwych do rozwiązania - optymalne rozwiązania dla POMDP są możliwe do wykonania metodą NP-Complete, optymalne rozwiązania dla DEC-POMDP są do udowodnienia NEXP-Complete itp. Tak więc, nieobecny nieoczekiwany przełom w teorii złożoności, tym więcej wiemy o algorytmach aproksymacyjnych i ich teoretyczne podstawy, tym lepiej. (Oprócz teorii miary itp. Konieczne było prawdziwe zrozumienie prawdopodobieństwa bayesowskiego leżącego u podstaw modelu POMDP).

W szczególności sztuczna inteligencja wieloagentowa krzyżuje się z teorią gier; więc znajomość teorii gier jest pomocna, co z kolei zależy od topologii, teorii miary itp. Podobnie wiele problemów w teorii gier jest nierozwiązywalnych. Niektóre są nawet trudne do oszacowania, a nawet zrozumienie, kiedy możliwe jest użyteczne przybliżenie, wymaga znacznej ilości matematyki.

(Zwracam uwagę, że teoretycy gier od kilku lat dobrze sobie radzą w dziedzinie ekonomii Nobla, i to ma bardzo matematyczny charakter. Przewiduję, że za dwadzieścia dziwnych lat dzisiejsi teoretycy gier algorytmicznych będą w tym samym czasie pozycja.)

Novak
źródło
1

Matematyka związana z AI nie jest zaawansowana i jest nauczana na poziomie licencjackim. Algorytmy szkoleniowe i wnioskowania AI należą do dziedziny zaawansowanej informatyki.

To trochę gra słowna. Część historii powinna również zostać uwzględniona podczas badań nad AI.

Na przykład w obecnej nomenklaturze głębokie uczenie się wydaje się być kluczowym słowem kluczowym w AI.

Głębokie uczenie się to tak zwane Sztuczne Sieci Neuronowe (ANN), takie jak model sieci perceptronów propagujących wstecz Hintona (BACKPROP) i tym podobne.

Matematyki związane z BACKPROP ANN (na przykład) są zasadniczo rachunkami pochodnymi do celów szkoleniowych i algebrą macierzy do wnioskowania.

Nowym aspektem głębokiego uczenia się jest fizyczne oddzielenie algorytmów szkolenia i wnioskowania. Procesory są nadal używane do szkolenia, ale teraz do wnioskowania wykorzystywane są procesory graficzne.

Na przykład macierze ANN są trenowane (ważone) przez błędy propagacji wstecznej przy użyciu rachunku korekcyjnego pochodnej. Jest to najlepiej dostosowane do procesorów i musi być wykonane tylko raz na wdrożenie ANN.

ANN jest następnie wdrażany w wysoce równoległej architekturze GPU. Matematyka wnioskowania do przodu obejmuje intensywną algebrę macierzy, do której zaprojektowano procesory graficzne.

Zwiększa to wydajność wdrożonego ANN o kilka rzędów wielkości w porównaniu z poprzednimi wdrożeniami opartymi na procesorze i można go wydajniej skalować na dowolnej liczbie dedykowanych układów GPU.

Firmy takie jak Nvidia i AMD wprowadzają obecnie na rynek chipsety GPU bardzo wysokiej jakości jako maszyny do głębokiego uczenia. Termin GPU zawsze był trochę mylący, ponieważ są to tak naprawdę procesory równoległe ogólnego przeznaczenia. Na przykład procesory graficzne są czasami określane jako Bitminery w aplikacjach blockchain.

To, co było stare, jest teraz nowe. Matematyka nie uległa zmianie, a jedynie terminologia informatyki (głównie ze względu na presję marketingową).

Termin AI zawsze był uważany za trochę ciemnego konia. Głębokie uczenie się jest obecnie politycznie poprawnym terminem przyjaznym dla rynku.

Birkensocks
źródło
2
Poprzednia odpowiedź dał już kontrprzykładów do roszczenia w zdaniu pierwszym. (Jest też wiele innych.) Czy przeczytałeś wcześniejsze odpowiedzi przed opublikowaniem? Możesz zredagować tę odpowiedź, aby zawęzić swoje roszczenia.
DW
2
Twierdzenie, że „procesory są nadal używane do szkolenia [głębokich sieci], ale teraz procesory graficzne są wykorzystywane do wnioskowania” jest raczej mylące (jeśli nie nieprawidłowe). Wszyscy trenują nowoczesne sieci neuronowe na GPU. Większość osób wdraża je również na GPU, ale niektóre środowiska wdrażania (np. Niektóre telefony komórkowe) nadal używają procesorów.
Mike Izbicki
Zgadzam się z Mikiem. „Procesory graficzne są używane do szkolenia, a procesory do wnioskowania” jest mniej niepoprawne niż stwierdzenie, że „Procesory są wykorzystywane do szkolenia, a procesory graficzne do wnioskowania”
ASDF,
@MikeIzbicki Architektury rurociągów, takie jak CUDA, OpenCL itp., Są wymagane do szkolenia w głębokim uczeniu się, które w dużym stopniu opiera się na rdzeniach procesora do korekcji błędów. Rurociągi wnioskowania wymagają tylko rdzeni procesora do zasilania i zbierania rdzeni GPU. Celem jest sprawność energetyczna i cieplna, dlatego równowaga między typami podstawowymi przesuwa się między szkoleniem a wnioskami. Tak już powiedziałem.
Birkensocks
-1

AI to niezwykle szerokie pole z szeroką gamą możliwych tras. Niektóre są wyjątkowo matematyczne, niektóre ledwo dotykają matematyki. Inni już udzielili dobrych odpowiedzi na bardziej matematyczne podejście. Z tematów, które wskazałeś-

„Algebra liniowa, prawdopodobieństwo / statystyka, rachunek całkowy, podstawowe algorytmy i logika”

-W zasadzie potrzebujesz lub będziesz z nich korzystać. Wiele podejść opiera się przynajmniej częściowo bezpośrednio na prawdopodobieństwie i statystyce - heurystyce, sieciach neuronowych, algorytmach genetycznych, logice rozmytej. Rachunek różniczkowy jest równie przydatny - w sztucznej inteligencji lub w ogólnej informatyce znajdziesz go prawie wszędzie. Algebra liniowa jest również czymś, czego zdecydowanie potrzebujesz.

Dwa najważniejsze przedmioty z perspektywy CS / AI to algorytmy i logika, algorytmy są prawdziwym sercem informatyki, a logika jest podstawowym „językiem” algorytmów. Kluczem do uczenia się algorytmów jest jednak umiejętność programowania, biegłość a praktyka programowania podstawowego jest jednym z najważniejszych fundamentów niemal wszystkich przedmiotów informatycznych lub AI. Programowanie to także umiejętność, której uniwersytety nie zawsze są szczególnie dobre w nauczaniu. Logika jest również bardzo istotna dla większości gałęzi AI; Logika boolowska, rachunek predykatów, logika symboliczna, leżące u podstaw teorie permutacji, hierarchia projektowania, rekurencja, maszyny stanów skończonych, maszyny Turinga, projektowanie procesorów itp. Tutaj naprawdę odchodzimy od matematyki na rzecz właściwej informatyki ..

Rozciągając się na moją własną dziedzinę matematyki „silnej sztucznej inteligencji” odgrywa zasadniczą, ale absolutnie istotną rolę. Bardzo dobre zrozumienie podstawowych matematyki jest prawdopodobnie ważniejsze niż matematyki wyższe, ale tak naprawdę wszystko, co podniesiesz, może być przydatne. Prawdziwym problemem w powstającym polu, takim jak Silna AI, jest to, że wszystko jest w powietrzu, a zatem pole jest w pełnym przepływie.
Potencjalnie przydatne przedmioty to: sieci neuronowe, algorytmy genetyczne, neurologia, genetyka, psychologia, cybernetyka i robotyka, teoria grafiki 3D, teoria przetwarzania obrazu, projektowanie gier komputerowych, filozofia, teoria sztuki, elektronika cyfrowa, teoria lingwistyki. jak ta lektura jest jednym z najważniejszych sposobów nauki. Kilka książek, które były dla mnie punktem wyjścia, to: The Emperors New Mind Rogera Penrose'a, Eye and Brain autorstwa RL Gregory, ale tak naprawdę spostrzeżenia mogą pochodzić z niemal każdego miejsca

Robert Lucien Howe
źródło