Dziwne zachowanie z optymalizatorem Adama podczas treningu zbyt długo
Próbuję wytrenować pojedynczy perceptron (1000 jednostek wejściowych, 1 wyjście, brak ukrytych warstw) na 64 losowo generowanych punktach danych. Używam Pytorch za pomocą optymalizatora Adama: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000,...