Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za działanie (Q-learning) jest równoważne z przewidywaniem prawdopodobieństwa bezpośredniego podjęcia działania (PG).
Obie metody są teoretycznie oparte na konstrukcji procesu decyzyjnego Markowa , w wyniku czego wykorzystują podobną notację i pojęcia. Ponadto w prostych rozwiązalnych środowiskach należy oczekiwać, że obie metody dadzą takie same - lub przynajmniej równoważne - optymalne zasady.
Są one jednak wewnętrznie różne. Najbardziej podstawowe różnice między podejściami dotyczą sposobu podejścia do wyboru działań, zarówno podczas uczenia się, jak i jako rezultatu (wyuczonej polityki). W Q-learningu celem jest nauczenie się pojedynczego działania deterministycznego z dyskretnego zestawu działań poprzez znalezienie maksymalnej wartości. W przypadku gradientów zasad i innych bezpośrednich wyszukiwań zasad celem jest poznanie mapy od stanu do działania, która może być stochastyczna i działa w przestrzeniach ciągłego działania.
W rezultacie metody gradientu zasad mogą rozwiązać problemy, których metody oparte na wartościach nie mogą:
Duża i ciągła przestrzeń akcji. Jednak w przypadku metod opartych na wartościach można to jeszcze w przybliżeniu zdyskretyzować - i nie jest to zły wybór, ponieważ funkcja mapowania w gradiencie polityki musi być w praktyce pewnego rodzaju aproksymatorem.
Polityka stochastyczna. Metoda oparta na wartościach nie może rozwiązać środowiska, w którym optymalna polityka jest stochastyczna i wymaga określonych prawdopodobieństw, takich jak nożyce / papier / kamień. Wynika to z faktu, że nie ma możliwych do wyuczenia parametrów w uczeniu się Q, które kontrolują prawdopodobieństwa działania, a sformułowanie problemu w uczeniu się TD zakłada, że czynnik deterministyczny może być optymalny.
Jednak metody oparte na wartościach, takie jak Q-learning, mają również pewne zalety:
Prostota. Możesz zaimplementować funkcje Q jako proste dyskretne tabele, co daje pewne gwarancje zbieżności. Nie ma tabelarycznych wersji gradientu strategii, ponieważ potrzebujesz funkcji mapowania która również musi mieć gładki gradient względem .p ( a ∣ s , θ )θ
Prędkość. Metody uczenia TD, które ładują się często, są znacznie szybsze w nauce zasad niż metody, które muszą jedynie próbkować ze środowiska, aby ocenić postęp.
Istnieją inne powody, dla których warto zastosować jedno lub drugie podejście:
Być może chcesz poznać przewidywany zwrot w trakcie działania procesu, aby pomóc innym procesom planowania związanym z agentem.
Reprezentacja problemu w stanie łatwiej jest albo funkcji wartości, albo funkcji polityki. Funkcja wartości może okazać się mieć bardzo prosty związek z państwem, a funkcja polityki jest bardzo złożona i trudna do nauczenia się, lub odwrotnie .
Niektóre najnowocześniejsze solwery RL faktycznie wykorzystują oba podejścia razem, takie jak Actor-Critic. Łączy to w sobie zalety wartości i metody gradientu polityki.