Pytania oznaczone «q-learning»

12
Dlaczego DQN wymaga dwóch różnych sieci?

Przechodziłem przez tę implementację DQN i widzę, że na linii 124 i 125 zainicjowano dwie różne sieci Q. Z mojego zrozumienia, myślę, że jedna sieć przewiduje odpowiednie działanie, a druga sieć przewiduje docelowe wartości Q dla znalezienia błędu Bellmana. Dlaczego nie możemy stworzyć jednej...