Z definicji Relu jest max(0,f(x))
. Następnie jej nachylenie jest zdefiniowany jako:
1 if x > 0 and 0 if x < 0
.
Czy nie oznacza to, że gradient zawsze wynosi 0 (znika), gdy x <0? Dlaczego więc mówimy, że Relu nie cierpi z powodu problemu znikania gradientu?
źródło
Znikanie oznacza, że zmierza w kierunku 0, ale tak naprawdę nigdy nie będzie 0. Posiadanie gradientów 0 pozwala na bardzo łatwe obliczenia, posiadanie gradientów bliskich 0 oznacza, że są zmiany, tylko bardzo małe, co oznacza powolne uczenie się i problemy numeryczne. 1 i 0 to dwie najłatwiejsze liczby do obliczenia w tego rodzaju problemach z optymalizacją.
źródło