Ostatnio widzieliśmy pojawienie się Residual Neural Net, w której każda warstwa składa się z modułu obliczeniowego i połączenia skrótowego, które zachowuje dane wejściowe do warstwy, takie jak dane wyjściowe z i-tej warstwy: Sieć pozwala wydobyć pozostałe cechy i pozwala na głębszą głębię, będąc jednocześnie bardziej odporna na znikający problem gradientu, osiągając najnowocześniejsze osiągi.
Po zagłębieniu się w zwiększanie gradientu , bardzo potężną technikę łączenia w świecie uczenia maszynowego, która wydaje się również wykonywać pewną formę optymalizacji gradientu na resztkach strat, Trudno nie zauważyć żadnej formy podobieństwa.
Wiem, że są one podobne, ale nie takie same - jedną z głównych różnic, które zauważyłem, jest to, że zwiększenie gradientu dokonuje optymalizacji addytywnego składnika, podczas gdy sieć resztkowa optymalizuje całą sieć.
Nie widziałem, aby zauważył to jako część motywacji w ich oryginalnej pracy . Zastanawiałem się więc, jakie są twoje spostrzeżenia na ten temat i proszę o podzielenie się interesującymi zasobami.
Dziękuję Ci.