Kiedy zaimplementowałem przyzwoity gradient mini partii, po prostu uśredniłem gradienty wszystkich przykładów w partii treningowej. Zauważyłem jednak, że teraz optymalna szybkość uczenia się jest znacznie wyższa niż w przypadku przyzwoitego gradientu online. Moją intuicją jest to, że uśredniony gradient jest mniej hałaśliwy i dlatego można go śledzić szybciej. Może więc warto również podsumować gradienty partii. Wartości mogą być dodatnie i ujemne.
Wiem, że to tylko stały czynnik, który można zrównoważyć za pomocą współczynnika uczenia się. Zastanawiam się jednak, jaką definicję uzgodnili naukowcy, abym mógł reprodukować wyniki z dokumentów z sieci neuronowej.
Czy zwykle dzieli się zsumowane gradienty partii przez rozmiar partii?