Obecnie przygotowuję się do egzaminu z sieci neuronowych. W kilku protokołach z poprzednich badań czytałem, że funkcje aktywacyjne neuronów (w perceptronach wielowarstwowych) muszą być monotoniczne.
Rozumiem, że funkcje aktywacyjne powinny być rozróżnialne, mieć pochodną, która w większości punktów nie jest równa 0, i być nieliniowa. Nie rozumiem, dlaczego bycie monotonnym jest ważne / pomocne.
Znam następujące funkcje aktywacyjne i że są one monotoniczne:
- ReLU
- Sigmoid
- Tanh
- Softmax: Nie jestem pewien, czy definicja monotoniczności ma zastosowanie do funkcji przy
- Softplus
- (Tożsamość)
Jednak nadal nie widzę żadnego powodu, dla którego na przykład .
Dlaczego funkcje aktywacyjne muszą być monotoniczne?
(Powiązane pytanie poboczne: czy jest jakiś powód, dla którego funkcja logarytmiczna / wykładnicza nie jest używana jako funkcja aktywacyjna?)
machine-learning
neural-network
Martin Thoma
źródło
źródło
Odpowiedzi:
Kryterium monotoniczności pomaga sieci neuronowej łatwiej zjednoczyć się w bardziej dokładny klasyfikator. Zobacz odpowiedź na stos wymiany i artykuł w Wikipedii, aby uzyskać dalsze szczegóły i powody.
Jednak kryterium monotoniczności nie jest obowiązkowe dla funkcji aktywacyjnej - Możliwe jest również trenowanie sieci neuronowych z niemonotonicznymi funkcjami aktywacyjnymi. Po prostu trudniej jest zoptymalizować sieć neuronową. Zobacz odpowiedź Yoshua Bengio .
źródło
Podam bardziej matematyczny powód, dlaczego pomaga funkcja monotoniczna!
Korzystając z http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiversity-of-monotone-fun , zakładając, że nasza funkcja aktywacji jest monotonna, możemy powiedzieć, że w prawdziwej linii nasza funkcja będzie różnicowalny. Tak więc gradient funkcji aktywacji nie będzie funkcją nieregularną. Łatwiej będzie znaleźć poszukiwane minima. (niedrogo obliczeniowo)
Funkcje wykładnicze i logarytmiczne są pięknymi funkcjami, ale nie są ograniczone (więc odwrotność twierdzenia Lebesgue'a nie jest prawdziwa, ponieważ Exp i Log są funkcjami różnicowalnymi, które nie są ograniczone do rzeczywistej linii). Nie udaje im się, gdy chcemy sklasyfikować nasze przykłady na ostatnim etapie. Sigmoid i tanh działają naprawdę dobrze, ponieważ mają gradienty, które są łatwe do obliczenia, a ich zakres wynosi odpowiednio (0,1) i (-1,1).
źródło