Uczę sieci neuronowej przy użyciu i) SGD i ii) Adam Optimizer. Korzystając z normalnego SGD, uzyskuję płynną krzywą utraty treningu w porównaniu z krzywą iteracji, jak pokazano poniżej (czerwona). Kiedy jednak użyłem Optymalizatora Adama, krzywa utraty treningu ma pewne skoki. Jakie jest...