O ile rozumiem, Q-learning i gradienty polityki (PG) to dwa główne podejścia stosowane do rozwiązywania problemów RL. Podczas gdy Q-learning ma na celu przewidzenie nagrody za pewne działanie podjęte w określonym stanie, gradienty polityki bezpośrednio przewidują samo działanie. Jednak oba...
21
Jaki jest związek między Q-learningiem a metodami gradientów polityki?