Uczenie się przez zbrojenie: wprowadzenie. Druga edycja, w toku ., Richard S. Sutton i Andrew G. Barto (c) 2012, s. 67–68.
Rozwiązanie zadania polegającego na uczeniu się o wzmocnieniu oznacza z grubsza znalezienie polityki, która na dłuższą metę osiągnie wiele nagród. W przypadku skończonych MDP możemy precyzyjnie zdefiniować optymalną politykę w następujący sposób. Funkcje wartości definiują częściowe uporządkowanie nad politykami. Polityka określa się lepiej niż lub równy polityki„jeśli jego powrót spodziewany jest większa lub równa , dla wszystkich państw. Innymi słowy, jeśli i tylko jeśli , dla wszystkich . Zawsze istnieje co najmniej jedna polisa, która jest lepsza lub równa wszystkim innym polisom. To jest optymalna polityka.
Dlaczego zawsze istnieje co najmniej jedna polisa, która jest lepsza lub równa od wszystkich innych polis?
Odpowiedzi:
Tuż po cytowanym fragmencie ten sam akapit faktycznie mówi ci, na czym polega ta polityka: to ta, która podejmuje najlepsze działania w każdym stanie. W MDP działania, które podejmujemy w jednym stanie, nie wpływają na nagrody za działania podejmowane w innych, więc możemy po prostu zmaksymalizować polisę według stanu.
źródło
Istnienie optymalnej polityki nie jest oczywiste. Aby zobaczyć dlaczego, należy zauważyć, że funkcja wartości zapewnia tylko częściowe uporządkowanie przestrzeni polityk. To znaczy:
Ponieważ jest to tylko częściowe uporządkowanie, mogą wystąpić przypadki, w których dwie polityki i π 2 nie są porównywalne. Innymi słowy, istnieją podzbiory przestrzeni stanu, S 1 i S 2, takie, że:π1 π2 S1 S2
W tym przypadku nie możemy powiedzieć, że jedna polisa jest lepsza od drugiej. Ale jeśli mamy do czynienia ze skończonymi MDP z funkcjami o ograniczonej wartości, taki scenariusz nigdy nie występuje. Istnieje dokładnie jedna optymalna funkcja wartości, chociaż może istnieć wiele optymalnych zasad.
Aby to udowodnić, musisz zrozumieć twierdzenie Banacha o stałym punkcie. Aby uzyskać szczegółową analizę, patrz .
źródło
Oprawa
Rozważamy w kontekście:
V ∗ = max π V π ( s ) , ∀ s ∈ S V ∗ = V π ∗
Pytanie
Jak udowodnić, że istnieje co najmniej jeden który spełnia (1) jednocześnie dla wszystkich ? s ∈ Sπ∗ s∈S
Zarys dowodu
Skonstruuj równanie optymalne, które będzie stosowane jako tymczasowa zastępcza definicja funkcji wartości optymalnej, co udowodnimy w kroku 2, że jest ona równoważna definicji za pomocą równania (2).
Wyznacz równoważność zdefiniowania funkcji wartości optymalnej za pomocą równania (4) i równania (2).
(Zauważ, że w rzeczywistości potrzebujemy tylko kierunku konieczności w dowodzie, ponieważ wystarczalność jest oczywista, ponieważ skonstruowaliśmy równanie (4) z równania (2).)
Udowodnij, że istnieje unikalne rozwiązanie równania (4).
W kroku 2 wiemy, że rozwiązanie uzyskane w kroku 3 jest również rozwiązaniem dla równania (2), więc jest to funkcja wartości optymalnej.
Z funkcji optymalnej wartości możemy odzyskać optymalną politykę, wybierając działanie maksymalizujące w równaniu (4) dla każdego stanu.
Szczegóły kroków
1Ponieważ , mamy . A jeśli są jakieś takie, że , możemy wybrać lepszą zasady maksymalizując na .V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)] Vπ∗(s)≤maxa∈AQπ∗(s,a) s~ Vπ∗≠maxa∈AQπ∗(s,a) Q∗(s,a)=Qπ∗(s,a) a
2)(=>)
Następuje krok 1.
(<=)
tzn. jeśli spełnia , następnie .V~ V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)] V~(s)=V∗(s)=maxπVπ(s),∀s∈S
Zdefiniuj optymalnego operatora Bellmana jako Więc naszym celem jest udowodnienie, że jeśli , to . Pokazujemy to, łącząc dwa wyniki, zgodnie z Putermanem [1]:
a) Jeśli , to .V~≥TV~ V~≥V∗
b) Jeśli , to .V~≤TV~ V~≤V∗
Dowód:
za)
Dla dowolnego , Tutaj jest regułą decyzyjną (profil działania w określonym czasie), jest wektorową reprezentacją natychmiastowej nagrody indukowane z a jest macierzą przejściową indukowaną z .π=(d1,d2,...)
Indukcyjnie, dla dowolnego , gdzie reprezentuje macierz przejścia -step w .˜ V ≥ R d 1 +n
Ponieważ mamy Mamy więc . A ponieważ dotyczy to każdego , dochodzimy do wniosku, że b)˜ V - V π ≥ γ
Wynika z kroku 1.
3)Optymalnym operatorem Bellmana jest skurcz w normie , por. [2]L∞
Dowód: Dla każdej , gdzie w (*) użyliśmy faktu, żes maxaf(a)-max a ′ g(a′)≤maxa[f(a)-g(a)]
Zatem według teorii Banacha o punkcie stałym wynika, że ma unikalny punkt stały.T
Bibliografia
[1] Puterman, Martin L. .. „Procesy decyzyjne Markowa: dyskretne stochastyczne programowanie dynamiczne”. (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf
źródło