Ostatnio natknąłem się na słowo „Recurrent Reinforcement Learning”. Rozumiem, czym jest „Recurrent Neur Network” i czym jest „Reinforcement Learning”, ale nie mogłem znaleźć wielu informacji na temat tego, czym jest „Recurrent Reinforcement Learning”.
Czy ktoś może mi wyjaśnić, czym jest „uczenie się z powtarzalnym wzmocnieniem” i jaka jest różnica między „uczeniem się z powtarzalnym wzmocnieniem” a normalnym „uczeniem się z wzmocnieniem”, takim jak algorytm Q-Learning.
źródło
Różnica (Głębokiego) Rekurencyjnego RL polega na tym, że funkcją mapującą obserwacje agentów na ich działanie wyjściowe jest Rekurencyjna Sieć Neuronowa.
Nawracająca sieć neuronowa to rodzaj sieci neuronowej, która przetwarza każdą obserwację sekwencyjnie, w taki sam sposób dla każdego kroku czasowego.
Artykuł oryginalny: Deep Recurrent Q-Learning dla częściowo obserwowalnych MDP
źródło