Dlaczego algorytm iteracji polityki jest zbieżny z optymalną funkcją polityki i wartości?

Czytałem notatki z wykładu Andrew Ng na temat uczenia się przez wzmacnianie i próbowałem zrozumieć, dlaczego iteracja polityki jest zbieżna z funkcją optymalnej wartości i optymalną polityką .V∗V∗V^*π∗π∗\pi^* Przypomnijmy, że iteracja zasad to: Zainicjuj  π losowoPowtórz {L e t V. : =V.π \ dla...