Połączenie ReLU, hiperparametryzowanego 1 nieszczelnego wariantu i wariantu z dynamiczną parametryzacją podczas uczenia się wprowadza w błąd dwie odrębne rzeczy:
- Porównanie ReLU z nieszczelnym wariantem jest ściśle związane z tym, czy istnieje potrzeba, w konkretnym przypadku ML, aby uniknąć nasycenia - Nasycenie to utrata sygnału do zerowego gradientu 2 lub dominacja chaotycznego szumu wynikającego z cyfrowego zaokrąglanie 3 .
- Porównanie aktywacji treningowo-dynamicznej (zwanej w literaturze parametryczną ) i aktywacji treningowo-statycznej musi opierać się na tym, czy nieliniowe lub nieładne właściwości aktywacji mają jakąkolwiek wartość związaną ze stopniem zbieżności 4 .
Powodem, dla którego ReLU nigdy nie jest parametryczne, jest to, że uczynienie go tak zbędnym. W dziedzinie ujemnej jest to stałe zero. W domenie nieujemnej jej pochodna jest stała. Ponieważ wektor wejściowy aktywacji jest już osłabiony przez produkt macierzy wektorowej (gdzie macierz, sześcian lub hipersześcian zawiera parametry tłumienia), nie ma użytecznego celu dodawania parametru zmieniającego stałą pochodnej dla domeny nieujemnej .
Kiedy w aktywacji występuje zakrzywienie, nie jest już prawdą, że wszystkie współczynniki aktywacji są nadmiarowe jako parametry. Ich wartości mogą znacznie zmienić proces szkolenia, a tym samym szybkość i niezawodność konwergencji.
W przypadku bardzo głębokich sieci redundancja pojawia się ponownie, i istnieją na to dowody, zarówno w teorii, jak i praktyce w literaturze.
- W kategoriach algebraicznych rozbieżność między ReLU a pochodnymi aktywacjami parametrycznymi dynamicznymi z niej zbliża się do zera, gdy głębokość (liczba warstw) zbliża się do nieskończoności.
- W kategoriach opisowych ReLU może dokładnie aproksymować funkcje za pomocą krzywizny 5, jeśli otrzyma wystarczającą liczbę warstw, aby to zrobić.
Dlatego odmiana ELU, która jest korzystna w zapobieganiu wspomnianym wyżej problemom nasycenia w płytszych sieciach, nie jest stosowana w głębszych.
Więc trzeba zdecydować dwie rzeczy.
- To, czy aktywacja parametryczna jest pomocna, często opiera się na eksperymentach z kilkoma próbkami z populacji statystycznej. Ale nie ma potrzeby eksperymentowania z nim, jeśli głębokość warstwy jest duża.
- To, czy wyciekający wariant ma wartość, ma wiele wspólnego z zakresami liczbowymi napotykanymi podczas propagacji wstecznej. Jeśli gradient staje się znikomo mały podczas propagacji pleców w dowolnym punkcie podczas treningu, stała część krzywej aktywacji może być problematyczna. W takim przypadku jedna z płynnych funkcji lub nieszczelny RelU z jego dwoma niezerowymi nachyleniami może zapewnić odpowiednie rozwiązanie.
Podsumowując, wybór nigdy nie jest wyborem wygody.
Przypisy
[1] Hiperparametry to parametry wpływające na sygnalizację przez warstwę, które nie są częścią tłumienia sygnałów wejściowych dla tej warstwy. Wagi tłumienia są parametrami. Każda inna parametryzacja należy do zestawu hiperparametrów. Może to obejmować szybkość uczenia się, tłumienie wysokich częstotliwości w propagacji wstecznej i wiele innych kontrolek uczenia się, które są ustawione dla całej warstwy, jeśli nie dla całej sieci.
[2] Jeśli gradient wynosi zero, wówczas nie może być żadnej inteligentnej regulacji parametrów, ponieważ kierunek regulacji jest nieznany, a jego wielkość musi wynosić zero. Uczenie się kończy.
[3] Jeśli szum chaotyczny, który może powstać, gdy procesor zaokrągla ekstremalnie małe wartości do ich najbliższej cyfrowej reprezentacji, dominuje sygnał korekcyjny, który ma się propagować z powrotem do warstw, wówczas korekcja staje się nonsensowna i uczenie się kończy.
[4] Szybkość konwergencji jest miarą prędkości (względnej względem mikrosekund lub względnej liczby iteracji algorytmu), w której wynik uczenia się (zachowanie systemu) zbliża się do tego, co uznaje się za wystarczająco dobre. Zazwyczaj jest to określona odległość od niektórych formalnych kryteriów akceptacji dla konwergencji (uczenia się).
[5] Funkcje z krzywizną to te, które nie są wizualizowane jako proste lub płaskie. Parabola ma krzywiznę. Linia prosta nie. Powierzchnia jajka ma krzywiznę. Idealny płaski samolot nie. Matematycznie, jeśli którykolwiek z elementów Heskiej funkcji jest różny od zera, funkcja ma krzywiznę.