Jak należy inicjalizować i regulować uprzedzenie?

13

Przeczytałem kilka artykułów na temat inicjalizacji jądra i wiele artykułów wspomina, że ​​używają regulowania L2 jądra (często z ).λ=0,0001

Czy ktoś robi coś innego niż inicjowanie błędu systematycznego zerowym i nieregulowanie go?

Dokumenty inicjujące jądro

Martin Thoma
źródło

Odpowiedzi:

15

Z Notatki Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Inicjowanie błędów. Jest możliwe i powszechne inicjowanie odchyleń na zero, ponieważ łamanie asymetrii jest zapewnione przez małe liczby losowe w wagach. W przypadku nieliniowości ReLU, niektórzy ludzie lubią stosować małą stałą wartość, taką jak 0,01 dla wszystkich stronniczości, ponieważ zapewnia to, że wszystkie jednostki ReLU odpalają na początku, a zatem uzyskują i propagują pewien gradient. Nie jest jednak jasne, czy zapewnia to stałą poprawę (w rzeczywistości niektóre wyniki wskazują na to, że działa to gorzej) i bardziej powszechne jest po prostu stosowanie inicjalizacji błędu 0.

W LSTM często inicjuje się odchylenia na 1 - patrz na przykład http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Lukas Biewald
źródło