Czy optymalna polityka jest zawsze stochastyczna (tj. Mapa stanów do rozkładu prawdopodobieństwa na działania), jeśli środowisko jest również stochastyczne?
Intuicyjnie, jeśli środowisko jest deterministyczne (to znaczy, jeśli agent jest w staniei podejmuje działanie , wtedy następny stan jest zawsze taki sam, bez względu na krok czasowy, wtedy optymalna polityka powinna być również deterministyczna (to znaczy powinna być mapą stanów do działań, a nie prawdopodobieństwa podział na działania).
Odpowiedzi:
Nie.
Optymalna polityka jest zasadniczo deterministyczna, chyba że:
Brakuje ważnych informacji o stanie (POMDP). Na przykład na mapie, na której agent nie może znać swojej dokładnej lokalizacji ani pamiętać poprzednich stanów, a podany stan nie wystarcza do rozróżnienia między lokalizacjami. Jeśli celem jest dotarcie do określonej lokalizacji końcowej, optymalna polityka może obejmować losowe ruchy, aby uniknąć utknięcia. Zauważ, że środowisko w tym przypadku może być deterministyczne (z perspektywy kogoś, kto widzi cały stan), ale nadal może prowadzić do stochastycznej polityki, aby go rozwiązać.
Istnieje pewien scenariusz teorii gier minimax, w którym polityka deterministyczna może zostać ukarana przez środowisko lub innego agenta. Pomyśl o nożyczkach / papierze / kamieniu lub dylemacie więźnia.
Wydaje się to rozsądne, ale tę intuicję możesz posunąć dalej za pomocą dowolnej metody opartej na funkcji wartości:
Jeśli znalazłeś optymalną funkcję wartości, to zachłanność w stosunku do niej jest optymalną polityką.
Powyższe stwierdzenie jest tylko naturalnym wyrażeniem równania optymalności Bellmana:
tzn. optymalne wartości są uzyskiwane zawsze przy wyborze akcji, która maksymalizuje nagrodę plus zdyskontowana wartość następnego kroku. Themaxza operacja jest deterministyczna (w razie potrzeby można zerwać powiązania dla wartości maksymalnej deterministycznie np. z uporządkowaną listą akcji).
Dlatego każde środowisko, które można modelować za pomocą MDP i rozwiązywać metodą opartą na wartościach (np. Iteracja wartości, Q-learning), ma optymalną politykę deterministyczną.
Jest możliwe w takim środowisku, że optymalne rozwiązanie może wcale nie być stochastyczne (tj. Jeśli dodasz dowolność do deterministycznej optymalnej polityki, polityka stanie się zdecydowanie gorsza). Jeśli jednak istnieją powiązania dla maksymalnej wartości dla jednego lub większej liczby działań w jednym lub większej liczbie stanów, istnieje wiele równoważnych optymalnych i deterministycznych polityk. Możesz stworzyć strategię stochastyczną, która łączy je w dowolną kombinację, i będzie również optymalna.
źródło
Powiedziałbym „nie”.
Rozważmy na przykład problem wielorękiego bandyty . Więc maszn ramiona, które prawdopodobnie dają nagrodę (na przykład 1 punkt), pja , ja będąc między 1 a n . Jest to proste środowisko stochastyczne: jest to środowisko jednopaństwowe, ale nadal jest środowiskiem.
Ale oczywiście optymalną polityką jest wybór ramienia z najwyższympja . To nie jest polityka stochastyczna.
Oczywiście, jeśli jesteś w środowisku, w którym grasz przeciwko innemu agentowi (ustawienie teorii gier), twoja optymalna polityka z pewnością będzie stochastyczna (np. Gra w pokera).
źródło
Mam na myśli krajobraz prawdopodobieństwa, w którym znajdziesz się jako aktor, z różnymi nieznanymi szczytami i dolinami. Dobre deterministyczne podejście zawsze może doprowadzić cię do najbliższego lokalnego optimum, ale niekoniecznie do globalnego optimum. Aby znaleźć globalne optimum, coś w rodzaju algorytmu MCMC pozwoliłoby stochastycznie zaakceptować chwilowo gorszy wynik w celu ucieczki od lokalnego optimum i znalezienia globalnego optimum. Moją intuicją jest to, że w stochastycznym środowisku byłoby to również prawdą.
źródło