Dużo czytałem o splotowych sieciach neuronowych i zastanawiałem się, w jaki sposób unikają problemu znikającego gradientu. Wiem, że sieci głębokiego przekonania stosują auto-kodery jednopoziomowe lub inne wstępnie wyszkolone płytkie sieci, dzięki czemu mogę uniknąć tego problemu, ale nie wiem, jak można go uniknąć w sieciach CNN.
Według Wikipedii :
„pomimo wyżej wspomnianego„ znikającego problemu z gradientem ”,„ doskonała moc obliczeniowa procesorów graficznych sprawia, że możliwa jest zwykła propagacja wsteczna dla głębokich sieci neuronowych z wieloma warstwami ”.
Nie rozumiem, dlaczego przetwarzanie GPU usunęło ten problem?
GPU's are fast correlated with vanishing gradients
, rozumiem szybką logikę z dużą przepustowością pamięci do przetwarzania wielu multiplikacji macierzy! ale czy mógłbyś wyjaśnić, co to ma wspólnego z pochodnymi? Problem znikającego gradientu wydaje się robić więcej przy inicjalizacji wagi , prawda?Odpowiedzi:
Znikający problem z gradientem wymaga od nas stosowania małych szybkości uczenia się przy spadku gradientu, który następnie wymaga wielu małych kroków, aby się zbiegać. Jest to problem, jeśli masz powolny komputer, który zajmuje dużo czasu na każdym kroku. Jeśli masz szybki procesor graficzny, który może wykonać o wiele więcej kroków dziennie, nie stanowi to problemu.
jego gradient wynosi
http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
źródło