Czym dokładnie jest blok Residual Learning w kontekście Deep Residual Networks w Deep Learning?

12

Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2:

wprowadź opis zdjęcia tutaj

co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak:

y=σ(W2σ(W1x+b1)+b2+x)

A może to coś innego?

Innymi słowy, być może próba dopasowania do zapisu artykułu jest:

F(x)+x=[W2σ(W1x+b1)+b2]+x

czy to prawda?

Zauważ, że po zsumowaniu koła na papierze pojawia się słowo ReLU, więc wyjście bloku resztkowego (które oznaczyłem przez ) powinno być:y

σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)

z jedną dodatkową nieliniowością ReLU .σ

Charlie Parker
źródło
jest x oznacza dodatnią relu (x) = x
Ray Tayek

Odpowiedzi:

5

Tak, to prawda, możesz rzucić okiem na ich model caffe, aby zobaczyć, jak jest on wdrażany.

dontloo
źródło