Jaki jest związek między Q-learningiem a metodami gradientów polityki?

21

O ile rozumiem, Q-learning i gradienty polityki (PG) to dwa główne podejścia stosowane do rozwiązywania problemów RL. Podczas gdy Q-learning ma na celu przewidzenie nagrody za pewne działanie podjęte w określonym stanie, gradienty polityki bezpośrednio przewidują samo działanie.

Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za działanie (Q-learning) jest równoważne z przewidywaniem prawdopodobieństwa bezpośredniego podjęcia działania (PG). Czy jest różnica w sposobie propagowania straty?

Tejas Ramdas
źródło

Odpowiedzi:

20

Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za działanie (Q-learning) jest równoważne z przewidywaniem prawdopodobieństwa bezpośredniego podjęcia działania (PG).

Obie metody są teoretycznie oparte na konstrukcji procesu decyzyjnego Markowa , w wyniku czego wykorzystują podobną notację i pojęcia. Ponadto w prostych rozwiązalnych środowiskach należy oczekiwać, że obie metody dadzą takie same - lub przynajmniej równoważne - optymalne zasady.

Są one jednak wewnętrznie różne. Najbardziej podstawowe różnice między podejściami dotyczą sposobu podejścia do wyboru działań, zarówno podczas uczenia się, jak i jako rezultatu (wyuczonej polityki). W Q-learningu celem jest nauczenie się pojedynczego działania deterministycznego z dyskretnego zestawu działań poprzez znalezienie maksymalnej wartości. W przypadku gradientów zasad i innych bezpośrednich wyszukiwań zasad celem jest poznanie mapy od stanu do działania, która może być stochastyczna i działa w przestrzeniach ciągłego działania.

W rezultacie metody gradientu zasad mogą rozwiązać problemy, których metody oparte na wartościach nie mogą:

  • Duża i ciągła przestrzeń akcji. Jednak w przypadku metod opartych na wartościach można to jeszcze w przybliżeniu zdyskretyzować - i nie jest to zły wybór, ponieważ funkcja mapowania w gradiencie polityki musi być w praktyce pewnego rodzaju aproksymatorem.

  • Polityka stochastyczna. Metoda oparta na wartościach nie może rozwiązać środowiska, w którym optymalna polityka jest stochastyczna i wymaga określonych prawdopodobieństw, takich jak nożyce / papier / kamień. Wynika to z faktu, że nie ma możliwych do wyuczenia parametrów w uczeniu się Q, które kontrolują prawdopodobieństwa działania, a sformułowanie problemu w uczeniu się TD zakłada, że ​​czynnik deterministyczny może być optymalny.

Jednak metody oparte na wartościach, takie jak Q-learning, mają również pewne zalety:

  • Prostota. Możesz zaimplementować funkcje Q jako proste dyskretne tabele, co daje pewne gwarancje zbieżności. Nie ma tabelarycznych wersji gradientu strategii, ponieważ potrzebujesz funkcji mapowania która również musi mieć gładki gradient względem .p(zas,θ)θ

  • Prędkość. Metody uczenia TD, które ładują się często, są znacznie szybsze w nauce zasad niż metody, które muszą jedynie próbkować ze środowiska, aby ocenić postęp.

Istnieją inne powody, dla których warto zastosować jedno lub drugie podejście:

  • Być może chcesz poznać przewidywany zwrot w trakcie działania procesu, aby pomóc innym procesom planowania związanym z agentem.

  • Reprezentacja problemu w stanie łatwiej jest albo funkcji wartości, albo funkcji polityki. Funkcja wartości może okazać się mieć bardzo prosty związek z państwem, a funkcja polityki jest bardzo złożona i trudna do nauczenia się, lub odwrotnie .

Niektóre najnowocześniejsze solwery RL faktycznie wykorzystują oba podejścia razem, takie jak Actor-Critic. Łączy to w sobie zalety wartości i metody gradientu polityki.

Neil Slater
źródło
Co masz na myśli, mówiąc, że aktor-krytyk łączy siłę obu metod? W moim rozumieniu aktor ocenia najlepsze działanie do podjęcia na podstawie stanu, a krytyk ocenia wartość tego stanu, a następnie przekazuje nagrodę aktorowi. Traktowanie ich jako pojedynczej jednostki „Polityki” nadal wydaje mi się gradientem polityki. Dlaczego to tak naprawdę jest Q-learning?
Gulzar
1
@Guizar: Krytyk uczy się metodą opartą na wartościach (np. Q-learning). Podsumowując, aktor-krytyk jest kombinacją metody wartości i metody gradientu polityki i korzysta z tej kombinacji. Jedną zauważalną poprawą w stosunku do PG „waniliowego” jest to, że gradienty można oceniać na każdym etapie, a nie na końcu każdego odcinka. Jeśli szukasz bardziej szczegółowej odpowiedzi na ten temat, powinieneś zadać pytanie na stronie.
Neil Slater,
@Guizar: Właściwie zdrapuję (np. Q-learning), kiedy mylę się między przewagą aktor-krytyk (który dostosowuje linię bazową, aby była oparta na wartościach akcji) i krytykiem, który jest zwykle prostszą wartością stanu. Jednak reszta mojego opisu jest wciąż taka sama, krytyk jest zwykle aktualizowany przy użyciu metod TD opartych na wartościach, których Q learning jest również przykładem.
Neil Slater,