Matematyki funkcją jest uważany za każdym razem, gdy liniowy fucntion , jeśli dla każdego i w domenie ma następującą właściwość: . Z definicji ReLU wynosi . Dlatego jeśli podzielimy domenę od lub wówczas funkcja będzie liniowa. Łatwo jednak zauważyć, że . Dlatego z definicji ReLU nie jest liniowy. x y A f ( x ) + f ( y ) = f ( x + y ) m a x ( 0 , x ) ( - ∞ , 0 ] [ 0 , ∞ ) f ( - 1 ) + f ( 1 ) ≠ f ( 0 )fa: A → BxyZAf(x)+f(y)=f(x+y)max(0,x)(−∞,0][0,∞)f(−1)+f(1)≠f(0)
Niemniej jednak ReLU jest tak bliskie liniowości, że często myli ludzi i zastanawia się, w jaki sposób można go wykorzystać jako uniwersalny aproksymator. Z mojego doświadczenia wynika, że najlepszym sposobem myślenia o nich są sumy Riemanna. Możesz przybliżać dowolne funkcje ciągłe za pomocą wielu małych prostokątów. Aktywacje ReLU mogą wytworzyć wiele małych prostokątów. W rzeczywistości ReLU może tworzyć dość skomplikowane kształty i przybliżać wiele skomplikowanych domen.
Mam też ochotę wyjaśnić inną kwestię. Jak wskazano w poprzedniej odpowiedzi, neurony nie umierają w Sigmoid, ale raczej znikają. Powodem tego jest to, że pochodna funkcji sigmoidalnej wynosi maksymalnie 0,25. Dlatego po tak wielu warstwach ostatecznie zwielokrotniasz te gradienty, a iloczyn bardzo małych liczb mniejszych niż 1 ma tendencję do bardzo szybkiego zerowania.
Dlatego jeśli budujesz sieć do głębokiego uczenia się z wieloma warstwami, twoje funkcje sigmoidalne zasadniczo będą w stagnacji raczej szybko i staną się mniej lub bardziej bezużyteczne.
Kluczem jest to, że znikanie wynika z pomnożenia gradientów, a nie samych gradientów.