Dlaczego doświadczenie odtwarzania wymaga algorytmu niezgodnego z zasadami?

12

W artykule wprowadzającym DQN „ Playing Atari with Deep Reinforcement Learning ” wspomniano:

Pamiętaj, że ucząc się na podstawie powtórki z doświadczenia, musisz nauczyć się pozasądowych zasad (ponieważ nasze obecne parametry różnią się od parametrów używanych do generowania próbki), co motywuje wybór Q-learningu.

Nie do końca zrozumiałem, co to znaczy. Co się stanie, jeśli użyjemy SARSA i zapamiętamy akcję a'dla akcji, którą mamy podjąć s'w naszej pamięci, a następnie spróbujemy z niej pobrać próbki i zaktualizować Q, tak jak to zrobiliśmy w DQN? I czy metody krytyka aktorskiego (w szczególności A3C) mogą wykorzystywać odtwarzanie doświadczeń? Jeśli nie to dlaczego?

DarkZero
źródło

Odpowiedzi:

2

Metody zgodne z polityką, takie jak SARSA, oczekują, że działania w każdym stanie są wybierane na podstawie bieżącej polityki agenta, która zwykle wykorzystuje nagrody.

Dzięki temu polityka staje się lepsza, gdy aktualizujemy naszą politykę na podstawie ostatnich nagród. W szczególności tutaj aktualizują parametry NN, które przewidują wartość określonego stanu / akcji).

Ale jeśli zaktualizujemy naszą politykę na podstawie przechowywanych przejść, jak w przypadku odtwarzania doświadczeń, w rzeczywistości oceniamy działania na podstawie polityki, która nie jest już aktualna, ponieważ ewoluowała w czasie, dzięki czemu przestała być zgodna z polityką.

Wartości Q są oceniane na podstawie przyszłych nagród, które otrzymasz ze stanu zgodnego z bieżącą polityką agenta.

Jednak nie jest to już prawdą, ponieważ przestrzegasz teraz innych zasad. Dlatego używają wspólnej metody niezgodnej z polityką, która bada w oparciu o podejście epsilon-chciwe.

Dante
źródło
Dziękuję, ale nadal nie rozumiem tego: jeśli użyję reguły aktualizacji TD (0), zapamiętam przejście (s, a, r, s')i wykorzystam to doświadczenie do odtworzenia; Załóżmy teraz, że moja obecna polityka mówi, że powinieneś wziąć a'na siebie s', a następnie zaznaczam, że Q(s, a)powinienem r + Q(s', a')zrobić gradient gradientowy. Myślę, że mam doświadczenie w odtwarzaniu zasad. Czy jest problem z procesem?
DarkZero
Uważam, że problem polega na tym, że ponieważ używasz teraz innej polityki niż poprzednio i że działanie jest wybierane przy użyciu starej polityki, nie można tak naprawdę powiedzieć, że dotyczy ona polityki: aby ocenić poprawność wartości Q polityki powinieneś zrobić wiele działań z tym samym. Tutaj próbujesz ocenić bieżącą politykę za pomocą działania, którego ta polityka nie mogła wybrać.
dante
Czy mogę więc powiedzieć, że robię to poza polisą? Jaki będzie tego wynik teoretycznie?
DarkZero
1
Więc jeśli dobrze zrozumiem, należy albo zastosować metody niezgodne z polityką, jak Q-learning, zawsze należy wybrać maksymalne Q, aby być przyszłą oczekiwaną nagrodą. Nie ma znaczenia, jakie jest obecne działanie, ponieważ właściwość uczenia się Q jest taka, że ​​jeśli zawsze wybierzesz maksymalne Q na przyszłość, Q będzie zbieżne z Q przy optymalnej polityce; Lub powinien szczerze postępować zgodnie z jedną polityką, wybierać każdą akcję, w tym przyszłe za pośrednictwem tej polityki, i przeprowadzać aktualizacje polityki. Czy to prawda?
DarkZero
1
Do tej pory nie rozumiem, dlaczego metody zgodne z polityką są dobre. Metody pozapolityczne wydają się mieć więcej swobody i same mogą odkryć optymalną politykę. Czy zechciałbyś również odpowiedzieć na stats.stackexchange.com/questions/265354/… ? Dziękuję bardzo za wszystkie dyskusje.
DarkZero
1

David Srebrny rozwiązuje to w tym wykładzie wideo na 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : Doświadczenie powtórka wybiera z stosując zasadę panującą w tym czasie, i to jest jedna z jego zalet - pozwala funkcję Q uczyć się na podstawie poprzednich zasad, które przerywają korelację ostatnich stanów i polityk i zapobiegają „zablokowaniu się” sieci do określonego trybu zachowania.as

dilaudid
źródło