W robotyce technika uczenia się zbrojenia służy do znalezienia wzoru sterowania dla robota. Niestety, większość metod gradientu polityki jest statystycznie tendencyjna, co może doprowadzić robota do niebezpiecznej sytuacji, patrz strona 2 w Jan Peters i Stefan Schaal: Wzmocnienie uczenia się umiejętności motorycznych za pomocą gradientów polityki, 2008
Dzięki prymitywnemu uczeniu się silnika możliwe jest rozwiązanie problemu, ponieważ optymalizacja parametrów gradientu polityki kieruje etapy uczenia się do celu.
cytat: „Jeśli oszacowanie gradientu jest obiektywne, a wskaźniki uczenia się spełniają sumę (a) = 0, proces uczenia się gwarantuje osiągnięcie co najmniej lokalnego minimum [...] Dlatego musimy oszacować gradient polityki tylko na podstawie wygenerowanych danych podczas wykonywania zadania. ”(Strona 4 tego samego papieru)
W zadaniu domowym dla klasy 1 Berkeley RL prosi się o pokazanie, że gradient strategii jest nadal bezstronny, jeśli odjęta linia podstawowa jest funkcją stanu w czasie t.
Walczę, jaki może być pierwszy krok takiego dowodu. Czy ktoś może skierować mnie we właściwym kierunku? Moją początkową myślą było jakoś wykorzystanie prawa całkowitego oczekiwania, aby uzależnić oczekiwanie b (st) od T, ale nie jestem pewien. Z góry dziękuję :)
źródło
Odpowiedzi:
Stosując prawo iterowanych oczekiwań, mamy:
napisane z całkami i przesuwające gradient wewnątrz (liniowość)
możesz teraz przenieść (z powodu liniowości) (nie zależy od ) z wewnętrznej całki na zewnętrzną:∇θ b(st) at
Teraz , co kończy dowód.∇θ1=0
źródło
Wygląda na to, że zadanie domowe należało na dwa dni przed napisaniem tej odpowiedzi, ale w przypadku, gdy jest ono nadal w jakiś sposób istotne, odpowiednie notatki klasowe (które byłyby przydatne, gdyby zostały podane w pytaniu wraz z pracą domową) znajdują się tutaj .
Pierwszym przykładem oczekiwania postawionym na ucznia jest: „Pokaż równanie 12, stosując prawo iterowanych oczekiwań, przełamując przez oddzielenie działania stanu marginalna od reszty trajektorii. ” Jest to równanie 12.Eτ∼pθ(τ)
Notatki klasowe identyfikują jako marginalną akcję stanu. Nie jest to poszukiwany dowód, lecz sekwencja algebraicznych kroków w celu przeprowadzenia oddzielenia i pokazania, w jakim stopniu można osiągnąć niezależność marginalnego działania państwa.πθ(at|st)
To ćwiczenie jest przygotowaniem do następnego kroku w zadaniu domowym i opiera się wyłącznie na przeglądzie CS189, kursu Wprowadzenie do uczenia maszynowego Burkeley, który nie zawiera Prawa Całkowitego Oczekiwania w swoim sylabusie ani notatkach z zajęć.
Wszystkie istotne informacje znajdują się w powyższym linku dla notatek klasowych i wymagają jedynie algebry pośredniej.
źródło