Tutaj odpowiedź odnosi się do znikania i eksplodowania gradientów, które były sigmoid
podobne do funkcji aktywacyjnych, ale, jak sądzę, Relu
mają wadę i są to oczekiwana wartość. nie ma ograniczeń dla wyjścia, Relu
więc jego oczekiwana wartość nie jest równa zero. Pamiętam czas, zanim popularność Relu
ta tanh
była najbardziej popularna wśród ekspertów w dziedzinie uczenia maszynowego sigmoid
. Powodem było to, że oczekiwana wartość tanh
była równa zero i pomogło to w uczeniu się w głębszych warstwach, aby było szybsze w sieci neuronowej. Relu
nie ma tej cechy, ale dlaczego działa tak dobrze, jeśli odłożymy na bok jego przewagę pochodną. Co więcej, myślę, że może to dotyczyć również pochodnej. Ponieważ aktywacje (wyjście zRelu
) są zaangażowane w obliczanie reguł aktualizacji.
źródło
CNN
normalizacji wyjścierelu
nie jest powszechne? Przynajmniej nigdy tego nie widziałem.Odpowiedzi:
Największą zaletą ReLu jest rzeczywiście nienasycenie jego gradientu, co znacznie przyspiesza zbieżność stochastycznego spadku gradientu w porównaniu z funkcjami sigmoid / tanh ( praca Kriżewskiego i in.).
Ale to nie jedyna zaleta. Oto omówienie rzadkich efektów aktywacji ReLu i indukowanej regularyzacji. Inną ciekawą właściwością jest to, że w porównaniu do neuronów tanh / sigmoidalnych, które wymagają drogich operacji (wykładnicze itp.), ReLU można wdrożyć, po prostu progując macierz aktywacji na zero.
Ale nie jestem przekonany, że wielki sukces nowoczesnych sieciach neuronowych jest spowodowane Relu sam . Bardzo ważne były także nowe techniki inicjalizacji, takie jak inicjacja Xaviera, rezygnacja i (później) wsadowy. Na przykład słynny AlexNet używał ReLu i dropout.
Aby odpowiedzieć na twoje pytanie: ReLu ma bardzo ładne właściwości, choć nie idealne . Ale naprawdę sprawdza się w połączeniu z innymi świetnymi technikami, które, nawiasem mówiąc, rozwiązują wspomniany przez ciebie problem niezerowy.
UPD: Wyjście ReLu nie jest rzeczywiście wyśrodkowane na zero i szkodzi wydajności NN. Ale ten konkretny problem można rozwiązać za pomocą innych technik regularyzacji, np. Batchnorm, który normalizuje sygnał przed aktywacją :
źródło