Szukam artykułu, który mógłby pomóc w wytyczeniu sposobu wyboru hiperparametrów głębokiej architektury, takich jak piętrowe auto-kodery lub sieci głęboko wierzące. Istnieje wiele hiperparametrów i jestem bardzo zdezorientowany, jak je wybrać. Również stosowanie weryfikacji krzyżowej nie jest opcją, ponieważ szkolenie naprawdę zajmuje dużo czasu!
38
Odpowiedzi:
Istnieją w zasadzie cztery metody:
źródło
Istnieje wiele różnych metod. Mogą być w dużej mierze podzielone na partycje w losowych / niekierowanych metodach wyszukiwania (takich jak wyszukiwanie siatki lub losowe) i metodach bezpośrednich. Pamiętaj jednak, że wszystkie one wymagają przetestowania znacznej liczby ustawień hiperparametrów, chyba że będziesz miał szczęście (przynajmniej setki, zależy od liczby parametrów).
W klasie metod bezpośrednich można wyróżnić kilka różnych podejść:
Możesz zajrzeć do Optunity , pakietu Pythona, który oferuje różnorodne rozwiązania do strojenia hiperparametrów (na razie wszystko, o czym wspomniałem oprócz EGO i Kriging). Opcja będzie dostępna wkrótce dla MATLAB i R. Oświadczenie: Jestem głównym programistą tego pakietu.
Opierając się na moim osobistym doświadczeniu, metody ewolucyjne są bardzo skuteczne w tego rodzaju problemach.
źródło
Nie szukaj dalej! Yoshua Bengio opublikował jeden z moich ulubionych artykułów aplikacyjnych, który polecam wszystkim nowym inżynierom uczącym się maszynowo, kiedy zaczynają trenować sieci neuronowe: Praktyczne zalecenia dotyczące gradientowego szkolenia głębokich architektur. Aby uzyskać jego spojrzenie na zwrot hiperparametrów: w tym szybkość uczenia się, harmonogram szybkości uczenia się, wczesne zatrzymywanie, rozmiar minibatchu, liczbę ukrytych warstw itp., Patrz sekcja 3.
źródło