Czytałem artykuł Klasyfikacja ImageNet z głębokimi sieciami neuronowymi splotowymi, aw części 3, w której wyjaśnili architekturę swojej sieci neuronowej splotowej, wyjaśnili, w jaki sposób woleli:
nieliniowa nieliniowość
ponieważ trenowanie było szybsze. W tym artykule wydaje się, że odnoszą się one do nasycenia nieliniowości jako bardziej tradycyjnych funkcji używanych w CNN, funkcji sigmoidalnej i funkcji stycznej hiperbolicznej (tj. i jako nasycenie).
Dlaczego nazywają te funkcje „nasycaniem” lub „nienasyceniem”? W jakim sensie są to funkcje „nasycające” lub „nienasycające”? Co oznaczają te terminy w kontekście splotowych sieci neuronowych? Czy są wykorzystywane w innych obszarach uczenia maszynowego (i statystyk)?
machine-learning
neural-networks
terminology
conv-neural-network
Charlie Parker
źródło
źródło
Odpowiedzi:
Intuicja
Funkcja aktywacji nasycenia ściska wejście.
Definicje
Definicje te nie są specyficzne dla splotowych sieci neuronowych.
Przykłady
Funkcja aktywacji rektyfikowanej jednostki liniowej (ReLU), która jest zdefiniowana jako nie nasyca, ponieważ :f(x)=max(0,x) limz→+∞f(z)=+∞
Funkcja aktywacji sigmoidalnej, która jest zdefiniowana jako jest nasycona, ponieważ zmiażdży liczby rzeczywiste w zakresie od :f(x)=11+e−x [0,1]
Funkcja aktywacji tanh (styczna hiperboliczna) jest nasycona, ponieważ zmiażdży rzeczywiste liczby w zakresie od :[−1,1]
(dane pochodzą z CS231n , licencja MIT)
źródło
Najczęstsze funkcje aktywacyjne to LOG i TanH. Funkcje te mają zwarty zakres, co oznacza, że kompresują odpowiedź neuronową do ograniczonego podzbioru liczb rzeczywistych. LOG kompresuje dane wejściowe na wyjścia między 0 a 1, TAN H między -1 a 1. Funkcje te wyświetlają zachowanie graniczne na granicach.
Na granicy gradient wyniku względem wejścia ∂yj / ∂xj jest bardzo mały. Tak więc Gradient jest mały, a zatem małe kroki do konwergencji, a zatem dłuższy czas na konwergencję.
źródło