Chcę stworzyć sztuczną inteligencję, która może grać w pięć w jednym rzędzie / gomoku. Jak wspomniałem w tytule, chcę do tego wykorzystać naukę wzmacniającą. Używam metody gradientu zasad , a mianowicie REINFORCE, z linią bazową. Do przybliżenia wartości i funkcji polityki używam sieci neuronowej...
20
Jak radzić sobie z nieprawidłowymi ruchami w uczeniu się zbrojenia?