Brak terminu regularyzacji dla jednostki odchylenia w sieci neuronowej

15

Zgodnie z tym samouczkiem na temat głębokiego uczenia się , odchudzanie (regularyzacja) zwykle nie jest stosowane do terminów stronniczości b dlaczego?

Jakie jest za tym znaczenie (intuicja)?

machine-learning neural-networks bias regularization Harshit
źródło

Wydaje mi się, że widziałem już bardzo podobne pytanie, po prostu nie mogę go znaleźć ... Być może powinieneś przejrzeć powiązane pytania i znaleźć odpowiedź. Być może może to być nieco przydatne.

Richard Hardy

14

Przeregulowanie zwykle wymaga, aby dane wyjściowe modelu były wrażliwe na niewielkie zmiany danych wejściowych (tj. Aby dokładnie interpolować wartości docelowe, zwykle wymagana jest duża krzywizna w dopasowanej funkcji). Parametry odchylenia nie wpływają na krzywiznę modelu, więc zwykle nie ma sensu ich regulowania.

Dikran Torbacz
źródło

5

Motywacja stojąca za L2 (lub L1) polega na tym, że ograniczając ciężary, ograniczając sieć, mniej prawdopodobne jest przeregulowanie. Ograniczanie wag odchyleń nie ma sensu, ponieważ odchylenia są ustalone (np. B = 1), a zatem działają jak przechwyty neuronów, co ma sens, aby uzyskać większą elastyczność.

Ramalho
źródło

1

Dodałbym, że pojęcie błędu często jest inicjowane 1raczej ze środka, a nie z 0, więc możemy chcieć go uregulować w taki sposób, aby nie oddalić się zbytnio od stałej wartości, 1takiej jak robienie, 1/2*(bias-1)^2a nie 1/2*(bias)^2.

Być może zastąpienie -1części przez odjęcie od średniej tendencyjności może pomóc, może średnia na warstwę lub ogólna. Ale to tylko hipoteza (o średniej odejmowaniu).

Wszystko zależy również od funkcji aktywacji. Np .: sigmoidy mogą być złe w przypadku zanikania gradientów, jeśli odchylenia są regulowane do wysokich stałych przesunięć.

Guillaume Chevalier
źródło

0

W samouczku jest napisane: „zastosowanie rozkładu masy do jednostek odchylenia zwykle robi tylko niewielką różnicę w końcowej sieci”, więc jeśli to nie pomoże, możesz przestać to robić, aby wyeliminować jeden hiperparametr. Jeśli uważasz, że uregulowanie przesunięcia pomogłoby w konfiguracji, to zweryfikuj je krzyżowo; nie ma nic złego w próbie.

Emre
źródło

Brak terminu regularyzacji dla jednostki odchylenia w sieci neuronowej

Odpowiedzi: