Czy ktoś może wyjaśnić algorytm wstecznej propagacji? [duplikować]

13

Co to jest algorytm wstecznej propagacji i jak on działa?

algorithms optimization neural-networks Jestem
źródło

1

Tutaj zamieszczam odpowiedź na to pytanie , jeśli ktoś jest zainteresowany (nie chciałem ponownie publikować).

Phylliida,

14

Algorytm wstecznej propagacji jest algorytmem spadku gradientu do dopasowania modelu sieci neuronowej. (jak wspomniał @Dikran) Pozwól mi wyjaśnić, jak to zrobić.

Formalnie: użycie obliczenia gradientu na końcu tego słupka w ramach równania [1] poniżej (czyli definicja spadku gradientu) daje algorytm wstecznej propagacji jako szczególny przypadek zastosowania spadku gradientu.

Model sieci neuronowej Formalnie naprawiamy pomysły za pomocą prostego modelu jednowarstwowego:

f (x) = g (A^{1} (s (A^{2} (x))))

$f(x)=g(A^1(s(A^2(x))))$ , gdzie , a są znane dla wszystkich , , i , to nieznane funkcje afiniczne. Funkcja nazywa się funkcją aktywacyjną w ramach klasyfikacji.

g : R \to R

$g:\mathbb{R} \rightarrow \mathbb{R}$

s : R^{M} \to R^{M}

$s:\mathbb{R}^M\rightarrow \mathbb{R}^M$

m = 1 \dots, M

$m=1\dots,M$

s (x) [m] = σ (x [m])

$s(x)[m]=\sigma(x[m])$

A^{1} : R^{M} \to R

$A^1:\mathbb{R}^M\rightarrow \mathbb{R}$

A^{2} R^{p} \to R^{M}

$A^2\mathbb{R}^p\rightarrow \mathbb{R}^M$

σ : R \to R

$\sigma:\mathbb{R}\rightarrow \mathbb{R}$

Aby naprawić pomysły, zastosowano kwadratową funkcję Loss . Dlatego wektory wejściowe z można dopasować do rzeczywistych danych wyjściowych z (mogą być wektorami), minimalizując empiryczne loss: w odniesieniu do wyboru i . $(x_1,\dots,x_n)$ $\mathbb{R}^p$ $(y_1,\dots,y_n)$ $\mathbb{R}$

R_{n} (A^{1}, A^{2}) = \sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2} [1]

$\mathcal{R}_n(A^1,A^2)=\sum_{i=1}^n (y_i-f(x_i))^2\;\;\;\;\;\;\; [1]$

A^{1}

$A^1$

A^{2}

$A^2$

Zejście gradientowe Zejście gradientowe dla zminimalizowaniato algorytm, który iteruje: dla dobrze wybranych rozmiarów kroków(zwany również współczynnikiem uczenia się w ramach propagacji wstecznej). Wymaga obliczenia gradientu. W rozważanym przypadku. $\mathcal{R}$

a_{l + 1} = a_{l} - γ_{l} \nabla R (a_{l}), l \geq 0.

$\mathbf{a}_{l+1}=\mathbf{a}_l-\gamma_l \nabla \mathcal{R}(\mathbf{a}_l),\ l \ge 0.$

(γ_{l})_{l}

$(\gamma_l)_l$

R

$\mathcal{R}$

a_{l} = (A_{l}^{1}, A_{l}^{2})

$\mathbf{a}_l=(A^1_{l},A^2_{l})$

Gradient $\mathcal{R}$ (dla prostego rozważanego modelu sieci neuronowej) Oznaczmy przez gradient gradientu w funkcji , a gradient jako funkcja . Standardowe obliczenia (przy użyciu reguły do wyprowadzania składu funkcji) i użycie zapisu dają dla wszystkich $\nabla_1 \mathcal{R}$ $\mathcal{R}$ $A^1$ $\nabla_2\mathcal{R}$ $\mathcal{R}$ $A^2$ $z_i=A^1(s(A^2(x_i)))$

\nabla_{1} R [1 : M] = - 2 \times \sum_{i = 1}^{n} z_{i} g^{'} (z_{i}) (y_{i} - f (x_{i}))

$\nabla_1 \mathcal{R}[1:M] =-2\times \sum_{i=1}^n z_i g'(z_i) (y_i-f(x_i))$

m = 1, \dots, M

$m=1,\dots,M$

\nabla_{2} R [1 : p, m] = - 2 \times \sum_{i = 1}^{n} x_{i} g^{'} (z_{i}) z_{i} [m] σ^{'} (A^{2} (x_{i}) [m]) (y_{i} - f (x_{i}))

$\nabla_2 \mathcal{R}[1:p,m] =-2\times \sum_{i=1}^n x_i g'(z_i) z_i[m]\sigma'(A^2(x_i)[m]) (y_i-f(x_i))$

Użyłem tutaj notacji R: jest wektorem złożonym ze współrzędnych od indeksu do indeksu . $x[a:b]$ $x$ $a$ $b$

Robin Girard
źródło

11

Propagacja wsteczna jest sposobem wypracowania pochodnej funkcji błędu w odniesieniu do wag, aby model mógł być szkolony metodami optymalizacji spadku gradientu - jest to po prostu zastosowanie „reguły łańcucha”. Nie ma w tym nic więcej, więc jeśli czujesz się dobrze z rachunkiem, jest to w zasadzie najlepszy sposób, aby na to spojrzeć.

Jeśli nie podoba ci się rachunek różniczkowy, lepszym sposobem byłoby powiedzenie, że wiemy, jak źle radzą sobie jednostki wyjściowe, ponieważ mamy pożądaną moc wyjściową do porównania rzeczywistej mocy wyjściowej. Jednak nie mamy pożądanego wyjścia dla ukrytych jednostek, więc co robimy? Reguła wstecznej propagacji jest w zasadzie sposobem na zrzucenie winy za błąd jednostek wyjściowych na jednostki ukryte. Im większy wpływ ukryta jednostka ma na konkretną jednostkę wyjściową, tym większa jest wina za błąd. Całkowita wina związana z ukrytą jednostką daje wtedy wskazanie, jak bardzo należy zmienić wagę warstwy wejściowej do ukrytej. Dwie rzeczy, które decydują o tym, jak duża część winy jest przekazywana z powrotem, to waga łącząca ciężary warstwy ukrytej i wyjściowej (oczywiście) i moc wyjściowa ukrytej jednostki (jeśli krzyczy, a nie szepcze, może mieć większy wpływ). Reszta to tylko matematyczne subtelności, które zamieniają tę intuicję w pochodną kryterium treningowego.

Poleciłbym również książkę Biskupów, by uzyskać właściwą odpowiedź! ; o)

Dikran Torbacz
źródło

2

Jest to algorytm do uczenia wielowarstwowych sieci neuronowych (wielowarstwowe perceptrony). W Internecie jest kilka dobrych apletów Java, które ilustrują to, co się dzieje, na przykład ten: http://neuron.eng.wayne.edu/bpFunctionApprox/bpFunctionApprox.html . Ponadto książka Bishopa na temat NN jest standardowym źródłem informacji na temat wszystkiego, co ma związek z NN.

Stephen Turner
źródło

Próbując zbudować stałe repozytorium wysokiej jakości informacji statystycznych w formie pytań i odpowiedzi, staramy się unikać odpowiedzi tylko za pomocą linku . Jeśli możesz, możesz to rozwinąć, być może podając streszczenie informacji pod linkiem?

Glen_b

Czy ktoś może wyjaśnić algorytm wstecznej propagacji? [duplikować]

Odpowiedzi: