Wydaje mi się, że funkcja VVV może być łatwo wyrażona przez funkcję QQQ a zatem funkcja VVV wydaje mi się zbędna. Jednak jestem nowy w uczeniu się przez wzmacnianie, więc chyba coś poszło nie tak. Definicje Q- i V-learning są w kontekście procesów decyzyjnych Markowa . MDP jest 5-krotny...