Dlaczego podczas szkolenia modeli uczenia maszynowego czasami korzystne jest utrzymanie wielkości partii na poziomie 2? Pomyślałem, że najlepiej będzie użyć rozmiaru, który najlepiej pasuje do twojej pamięci / RAM GPU.
Ta odpowiedź twierdzi, że dla niektórych pakietów moc 2 jest lepsza jako wielkość partii. Czy ktoś może podać szczegółowe wyjaśnienie / link do szczegółowego wyjaśnienia tego? Czy dotyczy to wszystkich algorytmów optymalizacji (opadanie gradientu, propagacja wsteczna itp.), Czy tylko niektórych z nich?
źródło
Cały pomysł polega na tym, aby całkowicie dopasować swoją mini-partię do CPU / GPU. Ponieważ wszystkie jednostki CPU / GPU mają pojemność dwóch, dlatego zaleca się, aby wielkość mini-partii była równa dwóm.
źródło