Jakie są zasady wdrażania w artykule AlphaGo?

11

Papier jest tutaj .

Polityka wdrażania ... jest liniową polityką softmax opartą na szybkich, przyrostowo obliczonych, lokalnych funkcjach opartych na wzorcach ...

Nie rozumiem, co to jest zasada wdrażania i jak odnosi się do sieci zasad wyboru ruchu. Jakieś prostsze wytłumaczenie?

Witaj świecie
źródło
Wydaje się, że gazeta jest za zaporą ...
Vladislavs Dovgalecs
@xeon Nic na to nie poradzę. Mam pełny dostęp do artykułu, ale nie mogę go tutaj przesłać (prawa autorskie). Może google, jeśli ktoś ma kopię?
HelloWorld,

Odpowiedzi:

11

Wydaje się, że sieć polityka określa rozkład prawdopodobieństwa nad możliwych ruchów gdy w grę stan . Gdy program przeszukuje drzewo gry, robi to losowo, a określa, w jaki sposób to wyszukiwanie. Mamy nadzieję, że ta funkcja „poprowadzi” program do dobrych ruchów, które może wykonać silny gracz. Ma to sens, ponieważ podczas przeszukiwania drzewa gry gałęzie zaczynające się od błędów są mniej istotne przy ocenie aktualnej pozycji planszy przeciwko inteligentnemu przeciwnikowi.a s pp(as)asp

Kiedy mówią, że polityka wdrażania (wydaje mi się, że zapożyczono termin „rollout” od backgammona) jest liniową funkcją softmax, to odnoszą się do uogólnienia funkcji sigmoidalnej stosowanej w regresji logistycznej. Ta funkcja przybiera formę

eβiTxj=1keβjTx

gdzie jest wektorem, który jest funkcją bieżącej pozycji tablicy (zgodnie z dokumentem liniowy softmax jest używany tylko na ostatnim etapie sieci polis), a jest wektorem wag, które razem określają prawdopodobieństwo, że polisa sieć wybierze akcję .β i a ixβiai

dsaxton
źródło