Dlaczego funkcje aktywacji rektyfikowanych jednostek liniowych (ReLU) są uważane za nieliniowe?
Są one liniowe, gdy dane wejściowe są dodatnie i z mojego zrozumienia, aby odblokować reprezentatywną moc głębokich sieci, nieliniowe aktywacje są koniecznością, w przeciwnym razie cała sieć mogłaby być reprezentowana przez pojedynczą warstwę.
Odpowiedzi:
RELU to nieliniowości. Aby pomóc Twojej intuicji, rozważ bardzo prostą sieć z 1 jednostką wejściowąx , 2 jednostkami ukrytymi yi i 1 jednostką wyjściową z . Dzięki tej prostej sieci moglibyśmy wdrożyć funkcję wartości bezwzględnej,
lub coś, co wygląda podobnie do powszechnie stosowanej funkcji sigmoidalnej,
Łącząc je w większe sieci / używając więcej ukrytych jednostek, możemy przybliżyć dowolne funkcje.
źródło
reLu(reLu(....))
zawsze będzie ona liniowa? Również tutaj zmieniacie sięx
nax+1
, które można by pomyśleć jako miejsce, wZ=Wx+b
którym zmienia się W & b, aby dać różne warianty tego rodzajux
ix+1
?