W artykule wprowadzającym DQN „ Playing Atari with Deep Reinforcement Learning ” wspomniano:
Pamiętaj, że ucząc się na podstawie powtórki z doświadczenia, musisz nauczyć się pozasądowych zasad (ponieważ nasze obecne parametry różnią się od parametrów używanych do generowania próbki), co motywuje wybór Q-learningu.
Nie do końca zrozumiałem, co to znaczy. Co się stanie, jeśli użyjemy SARSA i zapamiętamy akcję a'
dla akcji, którą mamy podjąć s'
w naszej pamięci, a następnie spróbujemy z niej pobrać próbki i zaktualizować Q, tak jak to zrobiliśmy w DQN? I czy metody krytyka aktorskiego (w szczególności A3C) mogą wykorzystywać odtwarzanie doświadczeń? Jeśli nie to dlaczego?
źródło
(s, a, r, s')
i wykorzystam to doświadczenie do odtworzenia; Załóżmy teraz, że moja obecna polityka mówi, że powinieneś wziąća'
na siebies'
, a następnie zaznaczam, żeQ(s, a)
powinienemr + Q(s', a')
zrobić gradient gradientowy. Myślę, że mam doświadczenie w odtwarzaniu zasad. Czy jest problem z procesem?David Srebrny rozwiązuje to w tym wykładzie wideo na 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : Doświadczenie powtórka wybiera z stosując zasadę panującą w tym czasie, i to jest jedna z jego zalet - pozwala funkcję Q uczyć się na podstawie poprzednich zasad, które przerywają korelację ostatnich stanów i polityk i zapobiegają „zablokowaniu się” sieci do określonego trybu zachowania.a s
źródło