Jakie są zalety używania ReLU w stosunku do softplus jako funkcji aktywacyjnych?

21

Często wspomina się, że rektyfikowane jednostki liniowe (ReLU) zastąpiły jednostki softplus, ponieważ są liniowe i szybsze w obliczeniach.

Czy softplus nadal ma tę zaletę, że indukuje rzadkość, czy też jest ograniczony do ReLU?

Pytam o to, dlatego zastanawiam się nad negatywnymi konsekwencjami zerowego nachylenia ReLU. Czy ta właściwość nie „pułapkuje” jednostki na zero, gdzie korzystne byłoby umożliwienie im reaktywacji?

brockl33
źródło
czy kiedykolwiek znalazłeś odpowiedź na to?
Charlie Parker,

Odpowiedzi:

4

Odpowiedź na twoje pytanie znalazłam w rozdziale 6.3.3 książki o głębokim uczeniu się . (Goodfellow i in., 2016):

Stosowanie softplus jest ogólnie odradzane. ... można się spodziewać, że będzie miał przewagę nad prostownikiem ze względu na to, że można go wszędzie odróżnić lub z powodu mniejszego nasycenia, ale empirycznie nie.

Jako odniesienie na poparcie tego twierdzenia cytują artykuł Deep Sparse Rectifier Neural Networks (Glorot i in., 2011).

Alexander Shchur
źródło
1
Myślę, że potrzebujemy więcej wyjaśnień na temat „ale empirycznie nie”.
nro
2

ReLU można rzeczywiście na stałe wyłączyć, szczególnie przy wysokich wskaźnikach uczenia się. Jest to motywacja stojąca za nieszczelnymi ReLU i aktywacjami ELU, z których oba mają niezerowy gradient prawie wszędzie.

Przeciekająca ReLU jest fragmentaryczną funkcją liniową, podobnie jak ReLU, więc jest szybka do obliczenia. ELU ma tę przewagę nad softmax i ReLU, że jego średni wynik jest bliski zeru, co poprawia uczenie się.

Hugh Perkins
źródło
Co to znaczy „prawie wszędzie”?
nro
1
„prawie wszędzie” to termin techniczny, który oznacza coś w rodzaju „z wyjątkiem kilku nieskończenie małych punktów”. Na przykład nieszczelny ReLU nie ma zdefiniowanego gradientu przy x = 0.
Hugh Perkins