Jaka jest różnica między iteracją wartości a iteracją polityki?

Jaka jest różnica między iteracją polityki a iteracją wartości w uczeniu się przez wzmacnianie ? O ile rozumiem, w iteracji wartości używasz równania Bellmana do rozwiązania optymalnej polityki, podczas gdy w iteracji polityki wybierasz losowo politykę π i znajdujesz nagrodę za tę politykę....