Sugerowałbym, aby najpierw dobrze zrozumieć, jaki jest podstawowy model probabilistyczny w tradycyjnej bayesowskiej sieci neuronowej. Poniżej niektóre terminy zostaną napisane pogrubioną czcionką . Spróbuj przejrzeć te warunki, aby znaleźć bardziej szczegółowe informacje. To tylko podstawowy przegląd. Mam nadzieję, że to pomoże.
Rozważmy przypadek regresji w sprzężonych sieciach neuronowych i ustalmy pewną notację.
( x1, … , Xp) = : ( z( 0 )1, … , Z( 0 )N.0)( z( ℓ )1, … , Z( ℓ )N.ℓ)ℓ = 1 , … , L - 1 ( y1, … , Yk) = : ( z( L )1, … , Z( L )N.L.)
jaℓw( ℓ )I jb(ℓ)iℓ=1,…,Li=1…,Nℓj=1,…,Nℓ−1
g(ℓ)i:RNℓ−1→Riℓℓ=1,…,Li=1…,Nℓ
Często używanymi funkcjami aktywacyjnymi są logistyka , ReLU (aka część dodatnia ) i tanh .
ℓ=1,…,L
G(ℓ):RNℓ−1→RNℓ:(z(ℓ−1)1,…,z(ℓ−1)Nℓ−1)↦(z(ℓ)1,…,z(ℓ)Nℓ),
z(ℓ)i=g(ℓ)i(∑j=1Nℓ−1w(ℓ)ijz(ℓ−1)j+b(ℓ)i),
i=1,…,Nℓ
θ
θ={w(ℓ)ij,b(ℓ)i:ℓ=1,…,L;i=1…,Nℓ;j=1,…,Nℓ−1},
Gθ:Rp→RkGθ=G(L)∘G(L−1)∘⋯∘G(1).
W powyższym opisie nie ma żadnych prawdopodobieństw. Pierwotnym biznesem sieci neuronowych jest dopasowanie funkcji .
„Głębokie” w głębokim uczeniu się oznacza istnienie wielu wewnętrznych warstw w rozważanych sieciach neuronowych.
{(xi,yi)∈Rp×Rk:i=1,…,n}
∑i=1n∥yi−Gθ(xi)∥2,
θx∗Gθ^(x∗)θ^jest rozwiązaniem problemu minimalizacji. Złotym standardem dla tej minimalizacji jest
propagacja wsteczna zaimplementowana przez bibliotekę
TensorFlow z wykorzystaniem możliwości równoległości dostępnych w nowoczesnych
procesorach graficznych (dla swoich projektów sprawdź interfejs
Keras ). Ponadto dostępny jest sprzęt umożliwiający enkapsulację tych zadań (
TPU ). Ponieważ sieć neuronowa jest na ogół zbyt sparametryzowana, aby uniknąć nadmiernego dopasowania do przepisu, do przepisu dodawana jest pewna forma regularyzacji, na przykład sumowanie
kalenicy jak kara do funkcji celu lub używanie
odpadania podczas treningu.
Geoffrey Hinton(znany również jako ojciec chrzestny Deep Learning) i współpracownicy wymyślili wiele z tych rzeczy. Historie sukcesu głębokiego uczenia się są wszędzie.
Prawdopodobieństwa zostały wprowadzone na zdjęciu pod koniec lat 80. i na początku lat 90. z propozycją prawdopodobieństwa Gaussa
i prosty (być może uproszczony) przeor Gaussa, zakładając niezależność a priori wszystkich wag i tendencyjności w sieci:
Lx,y(θ,σ2)∝σ−nexp(−12σ2∑i=1n∥yi−Gθ(xi)∥2),
π(θ,σ2)∝exp(−12σ20∑ℓ=1L∑i=1Nℓ((b(ℓ)i)2+∑j=1Nℓ−1(w(ℓ)ij)2))×π(σ2).
Dlatego marginalnymi priorytetami wag i odchyleń są rozkłady normalne o zerowej średniej i wspólnej wariancji . Ten oryginalny model połączenia może być znacznie bardziej zaangażowany, z kompromisem utrudniania wnioskowania.σ20
Bayesian Deep Learning staje przed trudnym zadaniem pobierania próbek z odpowiadającego tylnego rozkładu. Po wykonaniu tego przewidywania są dokonywane naturalnie z tylnym rozkładem predykcyjnym , a niepewności związane z tymi przewidywaniami są w pełni kwantyfikowane. Święty Graal w Bayesian Deep Learning to konstrukcja wydajnego i skalowalnego rozwiązania. W tym zadaniu zastosowano wiele metod obliczeniowych: pobieranie próbek Metropolis-Hastings i Gibbs , Hamiltonian Monte Carlo , a ostatnio - wnioskowanie wariacyjne .
Zapoznaj się z filmami z konferencji NIPS, aby zapoznać się z historiami sukcesu: http://bayesiandeeplearning.org/