Przybliżenie drugiego rzędu funkcji utraty (książka do głębokiego uczenia się, 7.33)

11

W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247).

Kwadratowe przybliżenie funkcji kosztu j daje:

J^(θ)=J(w)+12(ww)TH(ww)

H

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

Stevew
źródło

Odpowiedzi:

15

Mówią o optymalnych wagach:

Możemy modelować funkcję kosztu z kwadratowym przybliżeniem w sąsiedztwie empirycznie optymalnej wartości wagJw

W tym momencie pierwsza pochodna wynosi zero - środkowy człon jest zatem pominięty.

Jan Kukacka
źródło