Co to jest Bayesian Deep Learning?

13

Co to jest Bayesian Deep Learning i jaki ma to związek z tradycyjnymi statystykami Bayesian i tradycyjnym Deep Learning?

Jakie są główne pojęcia i matematyka? Czy mogę powiedzieć, że to tylko nieparametryczne statystyki bayesowskie? Jakie są jego przełomowe prace, a także obecne główne zmiany i zastosowania?

PS: Bayesian Deep Learning zyskuje wiele uwagi, patrz warsztaty NIPS.

statslearner
źródło

Odpowiedzi:

10

Wychodząc z linku do warsztatu NIPS, Yee Whye Teh wygłosił przemówienie na NIPS w Bayesian Deep Learning (wideo: https://www.youtube.com/watch?v=LVBvJsTr3rg , slajdy: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). Myślę, że w pewnym momencie Teh podsumował głębokie nauczanie bayesowskie jako zastosowanie ram Bayesa do pomysłów z głębokiego uczenia się (jak uczenie się a posteriori ponad ciężarem sieci neuronowej), a głębokie nauczanie bayesowskie jako stosowanie pomysłów z głębokiego uczenia się do Struktura bayesowska (jak głębokie procesy gaussowskie lub głębokie rodziny wykładnicze). Istnieją oczywiście pomysły, które leżą na granicy dwóch pojęć, takie jak wariacyjne autoencodery. Kiedy większość ludzi mówi, że głębokie nauczanie bayesowskie, zwykle oznacza jedno z tych dwóch, co znajduje odzwierciedlenie w zaakceptowanych artykułach na warsztatach, które połączyłeś (wraz z warsztatami z poprzedniego roku). Choć pomysły wracają do pracy Neala na temat bayesowskiego uczenia się sieci neuronowych w latach 90-tych (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.44646.9306&rep=rep1&type=pdf ) i od tego czasu pracowano, prawdopodobnie jednym z ważniejszych ostatnich artykułów będzie oryginalny papier wariacyjny autoencodera ( https://arxiv.org/pdf/1312.6114.pdf ).

aleshing
źródło
10

Sugerowałbym, aby najpierw dobrze zrozumieć, jaki jest podstawowy model probabilistyczny w tradycyjnej bayesowskiej sieci neuronowej. Poniżej niektóre terminy zostaną napisane pogrubioną czcionką . Spróbuj przejrzeć te warunki, aby znaleźć bardziej szczegółowe informacje. To tylko podstawowy przegląd. Mam nadzieję, że to pomoże.

Rozważmy przypadek regresji w sprzężonych sieciach neuronowych i ustalmy pewną notację.

(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN())=1,,L1 (y1,,yk)=:(z1(L),,zNL(L))

iwij()bi()=1,,Li=1,Nj=1,,N1

gi():RN1Ri=1,,Li=1,N

Często używanymi funkcjami aktywacyjnymi są logistyka , ReLU (aka część dodatnia ) i tanh .

=1,,L

G():RN1RN:(z1(1),,zN1(1))(z1(),,zN()),
zi()=gi()(j=1N1wij()zj(1)+bi()),
i=1,,N

θ

θ={wij(),bi():=1,,L;i=1,N;j=1,,N1},
Gθ:RpRk
Gθ=G(L)G(L1)G(1).

W powyższym opisie nie ma żadnych prawdopodobieństw. Pierwotnym biznesem sieci neuronowych jest dopasowanie funkcji .

„Głębokie” w głębokim uczeniu się oznacza istnienie wielu wewnętrznych warstw w rozważanych sieciach neuronowych.

{(xi,yi)Rp×Rk:i=1,,n}

i=1nyiGθ(xi)2,
θxGθ^(x)θ^jest rozwiązaniem problemu minimalizacji. Złotym standardem dla tej minimalizacji jest propagacja wsteczna zaimplementowana przez bibliotekę TensorFlow z wykorzystaniem możliwości równoległości dostępnych w nowoczesnych procesorach graficznych (dla swoich projektów sprawdź interfejs Keras ). Ponadto dostępny jest sprzęt umożliwiający enkapsulację tych zadań ( TPU ). Ponieważ sieć neuronowa jest na ogół zbyt sparametryzowana, aby uniknąć nadmiernego dopasowania do przepisu, do przepisu dodawana jest pewna forma regularyzacji, na przykład sumowanie kalenicy jak kara do funkcji celu lub używanie odpadania podczas treningu. Geoffrey Hinton(znany również jako ojciec chrzestny Deep Learning) i współpracownicy wymyślili wiele z tych rzeczy. Historie sukcesu głębokiego uczenia się są wszędzie.

Prawdopodobieństwa zostały wprowadzone na zdjęciu pod koniec lat 80. i na początku lat 90. z propozycją prawdopodobieństwa Gaussa i prosty (być może uproszczony) przeor Gaussa, zakładając niezależność a priori wszystkich wag i tendencyjności w sieci:

Lx,y(θ,σ2)σnexp(12σ2i=1nyiGθ(xi)2),
π(θ,σ2)exp(12σ02=1Li=1N((bi())2+j=1N1(wij())2))×π(σ2).

Dlatego marginalnymi priorytetami wag i odchyleń są rozkłady normalne o zerowej średniej i wspólnej wariancji . Ten oryginalny model połączenia może być znacznie bardziej zaangażowany, z kompromisem utrudniania wnioskowania.σ02

Bayesian Deep Learning staje przed trudnym zadaniem pobierania próbek z odpowiadającego tylnego rozkładu. Po wykonaniu tego przewidywania są dokonywane naturalnie z tylnym rozkładem predykcyjnym , a niepewności związane z tymi przewidywaniami są w pełni kwantyfikowane. Święty Graal w Bayesian Deep Learning to konstrukcja wydajnego i skalowalnego rozwiązania. W tym zadaniu zastosowano wiele metod obliczeniowych: pobieranie próbek Metropolis-Hastings i Gibbs , Hamiltonian Monte Carlo , a ostatnio - wnioskowanie wariacyjne .

Zapoznaj się z filmami z konferencji NIPS, aby zapoznać się z historiami sukcesu: http://bayesiandeeplearning.org/

Zen
źródło