Pytania oznaczone «reinforcement-learning»

W przypadku pytań związanych z uczeniem się kontrolowanym przez zewnętrzne pozytywne wzmocnienie lub negatywny sygnał sprzężenia zwrotnego lub oba te czynniki, w przypadku których uczenie się i korzystanie z tego, czego się dotąd nauczyliśmy, odbywa się jednocześnie.

14
Jak zdefiniować stany w uczeniu się przez wzmocnienie?

Studiuję naukę wzmacniającą i jej warianty. Zaczynam rozumieć, jak działają algorytmy i jak mają one zastosowanie do MDP. To, czego nie rozumiem, to proces definiowania stanów MDP. W większości przykładów i samouczków reprezentują one coś prostego, jak kwadrat w siatce lub podobny. W przypadku...

12
Dlaczego DQN wymaga dwóch różnych sieci?

Przechodziłem przez tę implementację DQN i widzę, że na linii 124 i 125 zainicjowano dwie różne sieci Q. Z mojego zrozumienia, myślę, że jedna sieć przewiduje odpowiednie działanie, a druga sieć przewiduje docelowe wartości Q dla znalezienia błędu Bellmana. Dlaczego nie możemy stworzyć jednej...