Często wspomina się, że rektyfikowane jednostki liniowe (ReLU) zastąpiły jednostki softplus, ponieważ są liniowe i szybsze w obliczeniach.
Czy softplus nadal ma tę zaletę, że indukuje rzadkość, czy też jest ograniczony do ReLU?
Pytam o to, dlatego zastanawiam się nad negatywnymi konsekwencjami zerowego nachylenia ReLU. Czy ta właściwość nie „pułapkuje” jednostki na zero, gdzie korzystne byłoby umożliwienie im reaktywacji?
machine-learning
neural-networks
brockl33
źródło
źródło
Odpowiedzi:
Odpowiedź na twoje pytanie znalazłam w rozdziale 6.3.3 książki o głębokim uczeniu się . (Goodfellow i in., 2016):
Jako odniesienie na poparcie tego twierdzenia cytują artykuł Deep Sparse Rectifier Neural Networks (Glorot i in., 2011).
źródło
ReLU można rzeczywiście na stałe wyłączyć, szczególnie przy wysokich wskaźnikach uczenia się. Jest to motywacja stojąca za nieszczelnymi ReLU i aktywacjami ELU, z których oba mają niezerowy gradient prawie wszędzie.
Przeciekająca ReLU jest fragmentaryczną funkcją liniową, podobnie jak ReLU, więc jest szybka do obliczenia. ELU ma tę przewagę nad softmax i ReLU, że jego średni wynik jest bliski zeru, co poprawia uczenie się.
źródło