Podczas uczenia sieci neuronowych jeden hiperparametr ma rozmiar minibatchu. Najczęściej wybierane są 32, 64 i 128 elementów na jedną partię.
Czy istnieją jakieś zasady / wytyczne dotyczące wielkości mini-partii? Jakieś publikacje, które badają wpływ na szkolenie?
neural-network
deep-learning
convnet
optimization
Martin Thoma
źródło
źródło
Odpowiedzi:
W szkoleniu na temat dużych partii dla głębokiego uczenia się: luka uogólniająca i Sharp Minima jest kilka interesujących stwierdzeń:
Z mojej pracy magisterskiej : Stąd wybór rozmiaru mini-partii wpływa na:
Ważne jest, aby zwrócić uwagę na interakcje hiperparametrowe: Wielkość partii może oddziaływać z innymi hiperparametrami, w szczególności z szybkością uczenia się. W niektórych eksperymentach ta interakcja może utrudniać wyodrębnienie wpływu samej wielkości partii na jakość modelu. Inną silną interakcją jest wczesne zatrzymanie w celu uregulowania.
Zobacz też
źródło