Wiedziałem, że Residual Network (ResNet) sprawił, że zwykła inicjalizacja He stała się popularna. W ResNet używana jest normalna inicjalizacja He , podczas gdy pierwsza warstwa używa jednolitej inicjalizacji He.
Przejrzałem papier ResNet i papier „Zagłębiając się w prostowniki” (papier inicjalizacyjny He), ale nie znalazłem żadnej wzmianki o normalnym init vs.
Również:
Normalizacja partii pozwala nam korzystać ze znacznie wyższych wskaźników uczenia się i być mniej ostrożnym przy inicjalizacji.
W streszczeniu artykułu Batch Normalization mówi się, że Batch Normalization pozwala nam być mniej ostrożnym przy inicjalizacji.
Sam ResNet wciąż dba o to, kiedy użyć zwykłego init zamiast jednolitego init (zamiast po prostu używać jednolitego init).
Więc:
- Kiedy stosować (He lub Glorot) inicjalizację o rozkładzie normalnym zamiast jednolitej inicjalizacji?
- Jakie są normalnie dystrybuowane efekty inicjalizacji z normalizacją wsadową?
Uwagi na bok:
- Rymuje się używanie normalnego init z normalizacją wsadową, ale nie znalazłem żadnego papieru na poparcie tego faktu.
- Wiedziałem, że ResNet używa He init przez Glorot init, ponieważ On init działa lepiej w głębokiej sieci.
- Zrozumiałem o inicjacji Glorot vs On init .
- Moje pytanie dotyczy inicjacji normalnej i jednolitej.
Zapoznaj się z hiperparametrami w akcji! Część II - Inicjatory wagowe
źródło