Brak terminu regularyzacji dla jednostki odchylenia w sieci neuronowej

15

Zgodnie z tym samouczkiem na temat głębokiego uczenia się , odchudzanie (regularyzacja) zwykle nie jest stosowane do terminów stronniczości b dlaczego?

Jakie jest za tym znaczenie (intuicja)?

Harshit
źródło
Wydaje mi się, że widziałem już bardzo podobne pytanie, po prostu nie mogę go znaleźć ... Być może powinieneś przejrzeć powiązane pytania i znaleźć odpowiedź. Być może może to być nieco przydatne.
Richard Hardy

Odpowiedzi:

14

Przeregulowanie zwykle wymaga, aby dane wyjściowe modelu były wrażliwe na niewielkie zmiany danych wejściowych (tj. Aby dokładnie interpolować wartości docelowe, zwykle wymagana jest duża krzywizna w dopasowanej funkcji). Parametry odchylenia nie wpływają na krzywiznę modelu, więc zwykle nie ma sensu ich regulowania.

Dikran Torbacz
źródło
5

Motywacja stojąca za L2 (lub L1) polega na tym, że ograniczając ciężary, ograniczając sieć, mniej prawdopodobne jest przeregulowanie. Ograniczanie wag odchyleń nie ma sensu, ponieważ odchylenia są ustalone (np. B = 1), a zatem działają jak przechwyty neuronów, co ma sens, aby uzyskać większą elastyczność.

Ramalho
źródło
1

Dodałbym, że pojęcie błędu często jest inicjowane 1raczej ze środka, a nie z 0, więc możemy chcieć go uregulować w taki sposób, aby nie oddalić się zbytnio od stałej wartości, 1takiej jak robienie, 1/2*(bias-1)^2a nie 1/2*(bias)^2.

Być może zastąpienie -1części przez odjęcie od średniej tendencyjności może pomóc, może średnia na warstwę lub ogólna. Ale to tylko hipoteza (o średniej odejmowaniu).

Wszystko zależy również od funkcji aktywacji. Np .: sigmoidy mogą być złe w przypadku zanikania gradientów, jeśli odchylenia są regulowane do wysokich stałych przesunięć.

Guillaume Chevalier
źródło
0

W samouczku jest napisane: „zastosowanie rozkładu masy do jednostek odchylenia zwykle robi tylko niewielką różnicę w końcowej sieci”, więc jeśli to nie pomoże, możesz przestać to robić, aby wyeliminować jeden hiperparametr. Jeśli uważasz, że uregulowanie przesunięcia pomogłoby w konfiguracji, to zweryfikuj je krzyżowo; nie ma nic złego w próbie.

Emre
źródło