Czy optymalna polityka jest zawsze stochastyczna, jeśli środowisko jest również stochastyczne?

Czy optymalna polityka jest zawsze stochastyczna (tj. Mapa stanów do rozkładu prawdopodobieństwa na działania), jeśli środowisko jest również stochastyczne? Intuicyjnie, jeśli środowisko jest deterministyczne (to znaczy, jeśli agent jest w staniesssi podejmuje działanie , wtedy następny stan jest...