Jakie jest wyjaśnienie przykładu, dlaczego normalizację partii należy przeprowadzać z pewną ostrożnością?

Czytałem artykuł normalizacyjny partii [1] i miał jedną sekcję, w której znajduje się przykład, próbując pokazać, dlaczego normalizacja musi być wykonana ostrożnie. Szczerze mówiąc, nie rozumiem, jak działa ten przykład, i naprawdę jestem bardzo ciekawy, jak rozumieją, jak drukują. Najpierw pozwól mi zacytować to tutaj:

Rozważmy na przykład warstwę z wejściem u, która dodaje wyuczone odchylenie b i normalizuje wynik, odejmując średnią aktywacji obliczoną na podstawie danych treningowych: gdzie jest zbiorem wartości w zestawie treningowym, a . Jeśli krok opadania gradientu ignoruje zależność od , wówczas zaktualizuje , gdzie . Następnie . Tak więc połączenie aktualizacji do $\hat{x} = x − E[x]$ $x=u+b, X =\{x_1...N \}$ $x$ $E[x] = \sum^N_{i=1} x_i$ $E[x]$ $b$ $b ← b + \Delta > b$ $\Delta b \propto -\frac{\partial l}{\partial \hat{x}}$ $u+(b+\Delta b)−E[u+(b+\Delta b)] = u+b−E[u+b]$ $b$ a późniejsza zmiana normalizacji nie doprowadziła do zmiany wydajności warstwy ani w konsekwencji do utraty.

Wydaje mi się, że rozumiem przesłanie, że jeśli normalizacja nie zostanie przeprowadzona prawidłowo, może być źle. Po prostu nie rozumiem, w jaki sposób wykorzystują to przykłady.

Zdaję sobie sprawę, że trudno jest komuś pomóc, jeśli nie jest on bardziej szczegółowy w kwestii tego, co go dezorientuje, dlatego przedstawię w następnym rozdziale rzeczy, które wprowadzają mnie w błąd co do ich wyjaśnienia.

Myślę, że większość moich nieporozumień może mieć charakter notacyjny, więc wyjaśnię.

Po pierwsze, myślę, że jedną z rzeczy, która mnie bardzo dezorientuje, jest to, że autorzy mają jednostkę w sieci i czym jest aktywacja. Zazwyczaj myślę o aktywacji jako:

x^{(l)} = a^{(l)} = θ (z^{(l)}) = θ (⟨ w^{(l)}, x^{(l - 1)} ⟩ + b^{(l)})

$x^{(l)} = a^{(l)} = \theta(z^{(l)}) = \theta( \langle w^{(l)}, x^{(l-1)} \rangle + b^{(l)})$

gdzie to nieprzetworzone wektory cech z pierwszej warstwy wejściowej. $x^{(0)} = a^{(0)} = x$

Myślę też, że jedną z pierwszych rzeczy, które mnie dezorientują (z poprzedniego powodu), jest scenariusz, który próbują wyjaśnić. To mówi:

normalizuje wynik, odejmując średnią aktywacji obliczoną na podstawie danych treningowych: gdzie $\hat{x} = x − E[x]$ $x=u+b$

Myślę, że próbują powiedzieć, że zamiast używać aktywacji obliczonych przez podanie do przodu, wykonuje się pewnego rodzaju „normalizację” poprzez odjęcie średniej aktywacji : $x^{(l)} = a^{(l)}$

{\bar{x}}^{l} = {\bar{a}}^{l} = \frac{1}{N} \sum_{i = 1}^{N} {\bar{a}}^{l} = \frac{1}{N} \sum_{i = 1}^{N} {\bar{x}}^{l}

$\bar{x}^{l} = \bar{a}^{l} = \frac{1}{N} \sum^{N}_{i=1} \bar{a}^{l} = \frac{1}{N} \sum^{N}_{i=1} \bar{x}^{l}$

a następnie przekazuje to do algorytmu wstecznej propagacji. A przynajmniej to miałoby dla mnie sens.

Odnosząc się do tego, myślę, że to, co nazywają to może ? To, co zgaduję, ponieważ nazywają to „wejściem” i mają równanie ( wydaje mi się, że używają jednostki tożsamości / aktywacji liniowej dla swojej sieci neuronowej? Może). $u$ $x^{(l)}$ $x = u + b$

Aby jeszcze bardziej pomylić, definiują jako coś proporcjonalnego do pochodnej cząstkowej, ale pochodna cząstkowa jest obliczana w odniesieniu do , co wydaje mi się naprawdę dziwne. Zazwyczaj pochodne częściowe przy zastosowaniu spadku gradientu odnoszą się do parametrów sieci. W przypadku przesunięcia pomyślałbym: $\Delta b$ $\hat{x}$

Δ b^{(l)} \propto - \frac{\partial l}{\partial b^{(l)}}

$\Delta b^{(l)} \propto -\frac{\partial l}{\partial b^{(l)} }$

ma większy sens niż przyjmowanie pochodnej w odniesieniu do znormalizowanych aktywacji. Próbowałem zrozumieć, dlaczego wzięli pochodną w odniesieniu do i pomyślałem, że może mieli na myśli delty, pisząc odkąd zwykle jest to jedyna część algorytmu wstecznego, która ma pochodną w odniesieniu do wstępnej aktywacji, ponieważ równanie delta to: $\hat{x}$ $\frac{ \partial l }{ \partial \hat{x} }$

δ_{j}^{(l)} = \frac{\partial L}{\partial z_{j}^{(l)}}

$\delta^{(l)}_j = \frac{\partial L}{\partial z^{(l)}_j}$

Kolejna rzecz, która mnie myli, to:

Następnie . $u + (b + \Delta b) - E[u + (b + \Delta b)] = u + b - E[u + b]$

tak naprawdę nie mówią, co starają się obliczyć w powyższym równaniu, ale chciałbym wnioskować, że starają się obliczyć zaktualizowaną znormalizowany aktywacji (dla pierwszej warstwy?) po jest aktualizowany do ? Nie jestem pewien, czy kupię ich punkt, ponieważ uważam, że poprawnym równaniem powinno być: $b$ $b + \Delta b$

\hat{x} = θ (u + (b + Δ b)) - E [θ (u + (b + Δ b))]

$\hat{x} = \theta( u + (b + \Delta b) ) - E[\theta( u + (b + \Delta b) )]$

co nie anuluje zmiana parametru . Jednak tak naprawdę nie wiem, co oni robią, więc tylko zgaduję. Czym dokładnie jest to równanie, które napisali? $\Delta b$ $b$

Nie jestem pewien, czy jest to właściwe zrozumienie, ale zastanowiłem się nad ich przykładem. Wydaje się, że ich przykład nie ma nieliniowej jednostki aktywacyjnej (używa tożsamości) i mówią tylko o pierwszej warstwie wejściowej? Ponieważ pominięto wiele szczegółów, a notacja nie jest bardzo jasna, nie mogę wydedukować dokładnie, o czym mówią. Czy ktoś wie, jak wyrazić ten przykład notacją, która wyraża to, co dzieje się na każdej warstwie? Czy ktoś rozumie, co się właściwie dzieje z tym przykładem i chce podzielić się ze mną swoją mądrością?

[1]: Ioffe S. i Szegedy C. (2015),
„Normalizacja partii: przyspieszenie głębokiego szkolenia w sieci poprzez ograniczenie wewnętrznej zmiany współzmiennej”,
materiały z 32. międzynarodowej konferencji na temat uczenia maszynowego , Lille, Francja, 2015.
Journal of Machine Learning Badania: W&CP tom 37

machine-learning neural-networks conv-neural-network Charlie Parker
źródło

Myślę, że charakter notacyjny tego akapitu jest teraz jasny, ale przesłanie, które próbuje przekazać i jego cel, jest mniej jasne.

Charlie Parker,

Myślę, że cały punkt tego paragrafu jest taki, że jeśli krok opadania gradientu ignoruje zależność od , aktualizacja terminu b nie spowoduje zmiany wyniku $E[x]$ $b$ , jak stwierdzono w zdaniu przed nim,

Jeśli jednak te modyfikacje są przeplatane krokami optymalizacji, wówczas krok spadku gradientu może próbować zaktualizować parametry w sposób, który wymaga aktualizacji normalizacji, co zmniejsza efekt kroku gradientu.

Dlatego uświadomili, że krok opadania gradientu jest świadomy normalizacji w swojej metodzie.

Jeśli chodzi o twoje pytania

Odnosząc się do tego, myślę, że to, co nazywają to może ? $u$ $x^{(l)}$

Jak stwierdzono w pierwszym zdaniu, jest wejściem warstwy. Co faktycznie to nie wydaje się ważne, ponieważ tylko oni ilustrujący działanie w przykładzie. $u$ $u$ $b$

że ma więcej sensu niż przyjmowanie pochodnej w odniesieniu do znormalizowanych aktywacji. $\Delta b \propto -\frac{\partial l}{\partial b }$

Wiemy , ponieważ ignorujemy zależność od , mamy tak . $\hat{x}=x-E[x]=u+b-E[x]$ $E[x]$ $b$

\frac{\partial l}{\partial b} = \frac{\partial l}{\partial \hat{x}} \frac{\partial \hat{x}}{\partial b} = \frac{\partial l}{\partial \hat{x}},

$\frac{\partial l}{\partial b}=\frac{\partial l}{\partial \hat{x}}\frac{\partial \hat{x}}{\partial b} = \frac{\partial l}{\partial \hat{x}},$

Δ b \propto - \frac{\partial l}{\partial \hat{x}}

$\Delta b \propto -\frac{\partial l}{\partial \hat{x}}$

$u + (b + \Delta b) - E[u + (b + \Delta b)] = u + b - E[u + b]$ tak naprawdę nie mówią, co próbują obliczyć w powyższym równaniu, ale chciałbym wnioskować, że starają się obliczyć zaktualizowaną znormalizowany aktywacji (dla pierwszej warstwy?) po jest aktualizowany do ? $b$ $b+\Delta b$

To obliczenie gdy jest aktualizowany , aby pokazać, że jeśli etap największego spadku ignoruje zależność w aktualizowanie termin Odchylenie B prowadzi do żadnej zmiany w wynik. $\hat{x}$ $b$ $b+\Delta b$ $E[x]$ $b$

Przydatne może być spojrzenie na niektóre implementacje normalizacji wsadowej typu open source, na przykład w Lasagne i Keras .

Jest jeszcze jedno pytanie, które może wydawać się powiązane: Dlaczego warto przyjmować gradient momentów (średnią i wariancję) podczas korzystania z normalizacji wsadowej w sieci neuronowej?

dontloo
źródło

więc sądzę, że ich celem jest to, że muszą uświadomić aktualizację GD o normalizacji, aby strata zmieniła się podczas aktualizacji odchylenia? A jaki jest główny cel tego akapitu?

Charlie Parker,

@CharlieParker tak sądzę, aby pokazać, że istnieje powód, aby uświadomić GD aktualizację o normalizacji (IMO).

dontloo,

Czy E [Δb] = Δb? Jeśli tak, to dlaczego?

MichaelSB,

Jakie jest wyjaśnienie przykładu, dlaczego normalizację partii należy przeprowadzać z pewną ostrożnością?

Odpowiedzi: