Dlaczego de facto standardowa funkcja sigmoidalna tak popularna w (nie-głębokich) sieciach neuronowych i regresji logistycznej?
Dlaczego nie używamy wielu innych pochodnych funkcji, z szybszym czasem obliczeń lub wolniejszym rozpadem (więc zanikający gradient występuje mniej). Na Wikipedii jest niewiele przykładów dotyczących funkcji sigmoidalnych . Jednym z moich ulubionych z powolnym rozkładem i szybkimi obliczeniami jest .
EDYTOWAĆ
Pytanie różni się od kompleksowej listy funkcji aktywacyjnych w sieciach neuronowych z zaletami / wadami, ponieważ interesuje mnie tylko „dlaczego” i tylko sigmoid.
logistic
neural-networks
least-squares
Mark Horvath
źródło
źródło
Odpowiedzi:
Cytując siebie z tej odpowiedzi na inne pytanie:
To wyjaśnia, dlaczego sigmoid jest wykorzystywany w regresji logistycznej.
W odniesieniu do sieci neuronowych ten post na blogu wyjaśnia, w jaki sposób różne nieliniowości, w tym logit / softmax i probit stosowane w sieciach neuronowych, mogą być interpretowane statystycznie, a tym samym motywowane. Podstawową ideą jest to, że wielowarstwową sieć neuronową można uznać za hierarchię uogólnionych modeli liniowych; zgodnie z tym funkcje aktywacyjne są funkcjami łączącymi, które z kolei odpowiadają różnym założeniom dystrybucyjnym.
źródło
Jednym z powodów, dla których ta funkcja może wydawać się bardziej „naturalna” niż inne, jest fakt, że jest ona odwrotnością parametru kanonicznego rozkładu Bernoulliego: (Funkcjapwewnątrz wykładnika nazywa się parametrem kanonicznym.)
Być może bardziej przekonujące uzasadnienie pochodzi z teorii informacji, w której funkcję sigmoidalną można uzyskać jako model maksymalnej entropii . Z grubsza mówiąc, funkcja sigmoidalna przyjmuje minimalną strukturę i odzwierciedla nasz ogólny stan niewiedzy na temat podstawowego modelu.
źródło
Zadawałem sobie to pytanie od miesięcy. Odpowiedzi na CrossValidated i Quora wszystkie zawierają ładne właściwości logistycznej funkcji sigmoid, ale wydaje się, że sprytnie odgadliśmy tę funkcję. Brakowało mi uzasadnienia wyboru. W końcu znalazłem jeden w sekcji 6.2.2.2 książki „Głębokie uczenie się” autorstwa Bengio (2016) . W moich własnych słowach:
Krótko mówiąc, chcemy, aby logarytm danych wyjściowych modelu był odpowiedni do opartej na gradiencie optymalizacji prawdopodobieństwa danych szkoleniowych.
Motywacja
Dlaczego logistyczna funkcja sigmoidalna?
Odcięciez pomocą P.( Y= 1 |z) = m a x { 0 , m i n { 1 , z} } daje zerowy gradient dla z poza [ 0 , 1 ] . Potrzebujemy silnego gradientu, gdy prognoza modelu jest błędna, ponieważ rozwiązujemy regresję logistyczną z opadaniem gradientu. W przypadku regresji logistycznej nie ma rozwiązania w formie zamkniętej.
Funkcja logistyczna ma fajną właściwość polegającą na asymptotowaniu stałego gradientu, gdy prognoza modelu jest błędna, biorąc pod uwagę, że do dopasowania modelu używamy oszacowania maksymalnej wiarygodności. Jest to pokazane poniżej:
W przypadku korzyści numerycznych można oszacować maksymalne prawdopodobieństwo poprzez zminimalizowanie ujemnego prawdopodobieństwa logarytmu danych treningowych. Nasza funkcja kosztów to:
PonieważP.( Y= 0 | z) = 1 - P( Y= 1 | z) , możemy skupić się na przypadku Y= 1 . Pytanie brzmi więc, jak modelować P.( Y= 1 | z) biorąc pod uwagę, że mamy z= wT.x + b .
Oczywiste wymagania dla funkcjifa mapowania z na P.( Y= 1 | z) to:
Wszystkie te wymagania są spełnione przez przeskalowanie funkcji sigmoid . Zarównofa( z) = 11 + e- z orazfa( z) = 0,5 + 0,5 z1 + | z| spełnij je. Funkcje sigmoidów różnią się jednak pod względem zachowania podczas optymalizacji prawdopodobieństwa dziennika na podstawie gradientu. Widzimy różnicę, podłączając funkcję logistycznąfa( z) = 11 + e- z do naszej funkcji kosztów.
Nasycenie dlaY= 1
DlaP.( Y= 1 | z) = 11 + e-z orazY= 1 , koszt pojedynczej źle sklasyfikowanej próbki (tj.m = 1 ) wynosi:
Alternatywy
który wygląda następująco:
źródło
Ponieważ w pierwotnym pytaniu wspomniano o problemie z rozkładającym się gradientem, chciałbym tylko dodać, że w przypadku warstw pośrednich (gdzie nie trzeba interpretować aktywacji jako prawdopodobieństwa klasowego lub wyników regresji), inne nieliniowości są często lepsze niż funkcje sigmoidalne. Najważniejsze są funkcje prostownika (jak w ReLU ), które są liniowe w dziedzinie dodatniej i zero w zakresie ujemnym. Jedną z ich zalet jest to, że są mniej podatni na rozkładające się gradienty, ponieważ pochodna jest stała w domenie dodatniej. ReLU stały się popularne do tego stopnia, że sigmoidy prawdopodobnie nie mogą być już nazywane de facto standardem.
źródło