Dlaczego poziom bazowy zależy od stanu w pewnym momencie bezstronnym?

9

W robotyce technika uczenia się zbrojenia służy do znalezienia wzoru sterowania dla robota. Niestety, większość metod gradientu polityki jest statystycznie tendencyjna, co może doprowadzić robota do niebezpiecznej sytuacji, patrz strona 2 w Jan Peters i Stefan Schaal: Wzmocnienie uczenia się umiejętności motorycznych za pomocą gradientów polityki, 2008

Dzięki prymitywnemu uczeniu się silnika możliwe jest rozwiązanie problemu, ponieważ optymalizacja parametrów gradientu polityki kieruje etapy uczenia się do celu.

cytat: „Jeśli oszacowanie gradientu jest obiektywne, a wskaźniki uczenia się spełniają sumę (a) = 0, proces uczenia się gwarantuje osiągnięcie co najmniej lokalnego minimum [...] Dlatego musimy oszacować gradient polityki tylko na podstawie wygenerowanych danych podczas wykonywania zadania. ”(Strona 4 tego samego papieru)

W zadaniu domowym dla klasy 1 Berkeley RL prosi się o pokazanie, że gradient strategii jest nadal bezstronny, jeśli odjęta linia podstawowa jest funkcją stanu w czasie t.

θt=1TE(st,at)p(st,at)[b(st)]=0

Walczę, jaki może być pierwszy krok takiego dowodu. Czy ktoś może skierować mnie we właściwym kierunku? Moją początkową myślą było jakoś wykorzystanie prawa całkowitego oczekiwania, aby uzależnić oczekiwanie b (st) od T, ale nie jestem pewien. Z góry dziękuję :)

link do oryginalnego png równania

Laura C.
źródło
Witamy w SE: AI! (Zezwoliłem na konwersję równania do MathJax. Oryginał .png znajduje się na dole.)
DukeZhou
2
Naprawdę nie mam dużo czasu, aby zapisać dokładne równania i sformatować je (może później, jeśli nadal nie ma odpowiedzi) za pomocą LaTeX, ale oto wskazówka. Chcesz, aby suma nie zależała od polisy, tak więc pochodna wynosiłaby 0. Więc w jakiś sposób próbujesz wyrazić rzeczy, używając polityki p (s, a). Odpowiedź btw można również znaleźć w książce Sutton's RL Intro w rozdziale dotyczącym gradientu polityki.
Hai Nguyen,
1
Dziękuję Ci bardzo! Wykorzystam tę wskazówkę, aby zacząć, a także dziękuję, że powiedziałeś mi, że jest w Sutton RL. Czytam tę książkę i jest całkiem doskonała!
Laura C,
@ LauraC, jeśli znajdziesz odpowiedź przed kimkolwiek innym, proszę wróć tutaj i opublikuj formalną odpowiedź tutaj (ludzie zdecydowanie lubią to pytanie :)
DukeZhou
Dodałem informacje kontekstowe do pytania.
Manuel Rodriguez

Odpowiedzi:

7

Stosując prawo iterowanych oczekiwań, mamy:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

napisane z całkami i przesuwające gradient wewnątrz (liniowość)

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

możesz teraz przenieść (z powodu liniowości) (nie zależy od ) z wewnętrznej całki na zewnętrzną:θb(st)at

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st) jest (warunkową) funkcją gęstości prawdopodobieństwa, więc całkowanie całego dla danego ustalonego stanu wynosi :atst1

=t=1Tstp(st)b(st)θ1dst=

Teraz , co kończy dowód.θ1=0

Andrei Poehlmann
źródło
1

Wygląda na to, że zadanie domowe należało na dwa dni przed napisaniem tej odpowiedzi, ale w przypadku, gdy jest ono nadal w jakiś sposób istotne, odpowiednie notatki klasowe (które byłyby przydatne, gdyby zostały podane w pytaniu wraz z pracą domową) znajdują się tutaj .

Pierwszym przykładem oczekiwania postawionym na ucznia jest: „Pokaż równanie 12, stosując prawo iterowanych oczekiwań, przełamując przez oddzielenie działania stanu marginalna od reszty trajektorii. ” Jest to równanie 12.Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

Notatki klasowe identyfikują jako marginalną akcję stanu. Nie jest to poszukiwany dowód, lecz sekwencja algebraicznych kroków w celu przeprowadzenia oddzielenia i pokazania, w jakim stopniu można osiągnąć niezależność marginalnego działania państwa.πθ(at|st)

To ćwiczenie jest przygotowaniem do następnego kroku w zadaniu domowym i opiera się wyłącznie na przeglądzie CS189, kursu Wprowadzenie do uczenia maszynowego Burkeley, który nie zawiera Prawa Całkowitego Oczekiwania w swoim sylabusie ani notatkach z zajęć.

Wszystkie istotne informacje znajdują się w powyższym linku dla notatek klasowych i wymagają jedynie algebry pośredniej.

Douglas Daseeco
źródło