Dlaczego stopa dyskontowa w algorytmie REINFORCE pojawia się dwukrotnie?
Czytałem książkę Reinforcement Learning: An Introduction autorstwa Richarda S. Sutton i Andrew G. Barto (kompletny szkic, 5 listopada 2017 r.). Na stronie 271 przedstawiono pseudo-kod dla epizodycznej metody Monte-Carlo z zastosowaniem gradientowej polityki. Patrząc na ten pseudo-kod, nie...