Papier jest tutaj .
Polityka wdrażania ... jest liniową polityką softmax opartą na szybkich, przyrostowo obliczonych, lokalnych funkcjach opartych na wzorcach ...
Nie rozumiem, co to jest zasada wdrażania i jak odnosi się do sieci zasad wyboru ruchu. Jakieś prostsze wytłumaczenie?
machine-learning
monte-carlo
reinforcement-learning
games
Witaj świecie
źródło
źródło
Odpowiedzi:
Wydaje się, że sieć polityka określa rozkład prawdopodobieństwa nad możliwych ruchów gdy w grę stan . Gdy program przeszukuje drzewo gry, robi to losowo, a określa, w jaki sposób to wyszukiwanie. Mamy nadzieję, że ta funkcja „poprowadzi” program do dobrych ruchów, które może wykonać silny gracz. Ma to sens, ponieważ podczas przeszukiwania drzewa gry gałęzie zaczynające się od błędów są mniej istotne przy ocenie aktualnej pozycji planszy przeciwko inteligentnemu przeciwnikowi.a s pp ( a ∣ s ) za s p
Kiedy mówią, że polityka wdrażania (wydaje mi się, że zapożyczono termin „rollout” od backgammona) jest liniową funkcją softmax, to odnoszą się do uogólnienia funkcji sigmoidalnej stosowanej w regresji logistycznej. Ta funkcja przybiera formę
gdzie jest wektorem, który jest funkcją bieżącej pozycji tablicy (zgodnie z dokumentem liniowy softmax jest używany tylko na ostatnim etapie sieci polis), a jest wektorem wag, które razem określają prawdopodobieństwo, że polisa sieć wybierze akcję .β i a ix βi ai
źródło