Dlaczego norma partii ma możliwą do nauczenia skalę i przesunięcie?

13

O ile rozumiem, norma wsadowa normalizuje wszystkie cechy wejściowe do warstwy do jednostkowego rozkładu normalnego, . Średnia i wariancja są szacowane poprzez pomiar ich wartości dla bieżącej mini-partii.N(μ=0,σ=1)μ,σ2

Po normalizacji dane wejściowe są skalowane i przesuwane o wartości skalarne:

x^i=γx^i+β

(Popraw mnie, jeśli się tu mylę - tutaj zaczynam być trochę niepewny.)

γ i βsą wartościami skalarnymi i dla każdej warstwy z normą wsadową jest ich para. Są one uczone wraz z wagami za pomocą backprop i SGD.

Moje pytanie brzmi: czy parametry te nie są zbędne, ponieważ dane wejściowe można skalować i przesuwać w jakikolwiek sposób o ciężary samej warstwy. Innymi słowy, jeśli

y=Wx^+b

i

x^=γx^+β

następnie

y=Wx^+b

gdzie W=Wγ i b=Wβ+b.

Jaki jest więc sens dodawania ich do sieci, ponieważ jest już w stanie nauczyć się skali i zmiany? Czy też całkowicie nie rozumiem rzeczy?

Timmmm
źródło

Odpowiedzi:

13

Doskonała odpowiedź znajduje się w książce Deep Learning Book, rozdział 8.7.1 :

Normalizacja średniej i odchylenia standardowego jednostki może zmniejszyć moc ekspresyjną sieci neuronowej zawierającej tę jednostkę. Aby utrzymać moc ekspresyjną sieci, często zastępuje się partię ukrytych aktywacji jednostek H γH + β, a nie po prostu znormalizowaną H. Zmienne γ i β są parametrami wyuczonymi, które pozwalają nowej zmiennej mieć dowolną średnią i odchylenie standardowe. Na pierwszy rzut oka może się to wydawać bezużyteczne - dlaczego ustawiliśmy średnią na 0, a następnie wprowadziliśmy parametr, który pozwala przywrócić jej dowolną wartość β?

Odpowiedź jest taka, że ​​nowa parametryzacja może reprezentować tę samą rodzinę funkcji danych wejściowych co stara parametryzacja, ale nowa parametryzacja ma inną dynamikę uczenia się. W starej parametryzacji średnia H została określona przez skomplikowaną interakcję między parametrami w warstwach poniżej H. W nowej parametryzacji średnia γH + β jest określona wyłącznie przez β. Nowa parametryzacja jest znacznie łatwiejsza do nauczenia przy spadku opadającym.

Timmmm
źródło