Próbuję zrozumieć słynny artykuł „Playing Atari with Deep Reinforcement Learning” ( pdf ). Nie jestem pewien, jaka jest różnica między epoką a epizodem . W algorytmie zewnętrzna pętla kończy się epizodami , natomiast na rysunku oś x jest oznaczona epoką . W kontekście uczenia się przez wzmacnianie nie jestem jasne, co oznacza epoka. Czy epoka jest zewnętrzną pętlą wokół pętli epizodu?
14
Odpowiedzi:
W artykule, o którym wspominasz, wydaje się, że są bardziej elastyczni pod względem znaczenia epoki, ponieważ po prostu definiują jedną epokę jako pewną liczbę aktualizacji wagi. Można zatem postrzegać jedną epokę jako zewnętrzną pętlę wokół pętli epizodu, jak wspomniano w pytaniu.
źródło