Jakie są zalety ReLU w porównaniu z nieszczelnymi ReLU i parametrycznymi ReLU (jeśli istnieją)?

10

Myślę, że zaletą korzystania z Leaky ReLU zamiast ReLU jest to, że w ten sposób nie możemy mieć zanikającego gradientu. Parametryczna ReLU ma tę samą zaletę z tą różnicą, że nachylenie wyjścia dla ujemnych danych wejściowych jest parametrem możliwym do nauczenia, podczas gdy w nieszczelnej ReLU jest to hiperparametr.

Nie jestem jednak w stanie stwierdzić, czy istnieją przypadki, w których wygodniej jest używać ReLU zamiast nieszczelnego ReLU lub parametrycznego ReLU.

gvgramazio
źródło

Odpowiedzi:

7

Połączenie ReLU, hiperparametryzowanego 1 nieszczelnego wariantu i wariantu z dynamiczną parametryzacją podczas uczenia się wprowadza w błąd dwie odrębne rzeczy:

  • Porównanie ReLU z nieszczelnym wariantem jest ściśle związane z tym, czy istnieje potrzeba, w konkretnym przypadku ML, aby uniknąć nasycenia - Nasycenie to utrata sygnału do zerowego gradientu 2 lub dominacja chaotycznego szumu wynikającego z cyfrowego zaokrąglanie 3 .
  • Porównanie aktywacji treningowo-dynamicznej (zwanej w literaturze parametryczną ) i aktywacji treningowo-statycznej musi opierać się na tym, czy nieliniowe lub nieładne właściwości aktywacji mają jakąkolwiek wartość związaną ze stopniem zbieżności 4 .

Powodem, dla którego ReLU nigdy nie jest parametryczne, jest to, że uczynienie go tak zbędnym. W dziedzinie ujemnej jest to stałe zero. W domenie nieujemnej jej pochodna jest stała. Ponieważ wektor wejściowy aktywacji jest już osłabiony przez produkt macierzy wektorowej (gdzie macierz, sześcian lub hipersześcian zawiera parametry tłumienia), nie ma użytecznego celu dodawania parametru zmieniającego stałą pochodnej dla domeny nieujemnej .

Kiedy w aktywacji występuje zakrzywienie, nie jest już prawdą, że wszystkie współczynniki aktywacji są nadmiarowe jako parametry. Ich wartości mogą znacznie zmienić proces szkolenia, a tym samym szybkość i niezawodność konwergencji.

W przypadku bardzo głębokich sieci redundancja pojawia się ponownie, i istnieją na to dowody, zarówno w teorii, jak i praktyce w literaturze.

  • W kategoriach algebraicznych rozbieżność między ReLU a pochodnymi aktywacjami parametrycznymi dynamicznymi z niej zbliża się do zera, gdy głębokość (liczba warstw) zbliża się do nieskończoności.
  • W kategoriach opisowych ReLU może dokładnie aproksymować funkcje za pomocą krzywizny 5, jeśli otrzyma wystarczającą liczbę warstw, aby to zrobić.

Dlatego odmiana ELU, która jest korzystna w zapobieganiu wspomnianym wyżej problemom nasycenia w płytszych sieciach, nie jest stosowana w głębszych.

Więc trzeba zdecydować dwie rzeczy.

  • To, czy aktywacja parametryczna jest pomocna, często opiera się na eksperymentach z kilkoma próbkami z populacji statystycznej. Ale nie ma potrzeby eksperymentowania z nim, jeśli głębokość warstwy jest duża.
  • To, czy wyciekający wariant ma wartość, ma wiele wspólnego z zakresami liczbowymi napotykanymi podczas propagacji wstecznej. Jeśli gradient staje się znikomo mały podczas propagacji pleców w dowolnym punkcie podczas treningu, stała część krzywej aktywacji może być problematyczna. W takim przypadku jedna z płynnych funkcji lub nieszczelny RelU z jego dwoma niezerowymi nachyleniami może zapewnić odpowiednie rozwiązanie.

Podsumowując, wybór nigdy nie jest wyborem wygody.


Przypisy

[1] Hiperparametry to parametry wpływające na sygnalizację przez warstwę, które nie są częścią tłumienia sygnałów wejściowych dla tej warstwy. Wagi tłumienia są parametrami. Każda inna parametryzacja należy do zestawu hiperparametrów. Może to obejmować szybkość uczenia się, tłumienie wysokich częstotliwości w propagacji wstecznej i wiele innych kontrolek uczenia się, które są ustawione dla całej warstwy, jeśli nie dla całej sieci.

[2] Jeśli gradient wynosi zero, wówczas nie może być żadnej inteligentnej regulacji parametrów, ponieważ kierunek regulacji jest nieznany, a jego wielkość musi wynosić zero. Uczenie się kończy.

[3] Jeśli szum chaotyczny, który może powstać, gdy procesor zaokrągla ekstremalnie małe wartości do ich najbliższej cyfrowej reprezentacji, dominuje sygnał korekcyjny, który ma się propagować z powrotem do warstw, wówczas korekcja staje się nonsensowna i uczenie się kończy.

[4] Szybkość konwergencji jest miarą prędkości (względnej względem mikrosekund lub względnej liczby iteracji algorytmu), w której wynik uczenia się (zachowanie systemu) zbliża się do tego, co uznaje się za wystarczająco dobre. Zazwyczaj jest to określona odległość od niektórych formalnych kryteriów akceptacji dla konwergencji (uczenia się).

[5] Funkcje z krzywizną to te, które nie są wizualizowane jako proste lub płaskie. Parabola ma krzywiznę. Linia prosta nie. Powierzchnia jajka ma krzywiznę. Idealny płaski samolot nie. Matematycznie, jeśli którykolwiek z elementów Heskiej funkcji jest różny od zera, funkcja ma krzywiznę.

FauChristian
źródło
Co rozumiesz przez Wybór nigdy nie jest wyborem wygody ?
gvgramazio
@gvgramazio, w swoim pytaniu napisałeś „wygodniej korzystać z ReLU”. Wskazałem, że wygoda nie jest podstawą do dokonania wyboru. Być może jest to zbyt trudne? Nie zamierzałem być. Zdania powyżej tego zdania w mojej odpowiedzi miały na celu dostarczenie bardziej użytecznych kryteriów, na których możesz oprzeć swoją decyzję przy wyborze funkcji aktywacyjnych.
FauChristian
Nie martw się, że będziesz zbyt surowy, nie będzie to dla mnie problemem. Myślę, że to bardziej problem językowy (nie jestem rodzimym językiem angielskim).
gvgramazio
Faktem jest, że z tego, co zrozumiałem, dobrze wyjaśniacie, w którym przypadku powinienem preferować jeden wariant w stosunku do innych. Nadal nie rozumiem, kiedy powinienem preferować klasyczny. np. nieszczelny wariant może zapewnić odpowiednie rozwiązanie znikającego gradientu, ale jeśli nie ma żadnej wady, zawsze mógłbym wybrać nieszczelny wariant w odniesieniu do ReLU.
gvgramazio
@FauChristian, czy możesz dodać więcej potocznych terminów i intuicji, nie jestem tak obeznany z językiem matematycznym :)
DuttaA