Co to jest funkcja Q i jaka jest funkcja V w uczeniu się przez wzmocnienie?

30

Wydaje mi się, że funkcja V może być łatwo wyrażona przez funkcję Q a zatem funkcja V wydaje mi się zbędna. Jednak jestem nowy w uczeniu się przez wzmacnianie, więc chyba coś poszło nie tak.

Definicje

Q- i V-learning są w kontekście procesów decyzyjnych Markowa . MDP jest 5-krotny (S,A,P,R,γ) z

  • S jest zbiorem stanów (zazwyczaj skończonych)
  • A jest zbiorem działań (zazwyczaj skończonych)
  • P(s,s,a)=P(st+1=s|st=s,at=a) to prawdopodobieństwo przejścia ze stanus do stanus z działaniema .
  • R(s,s,a)R jest natychmiastową nagrodą po przejściu ze stanus do stanus z działaniema . (Wydaje mi się, że zwykle tylkos spraw).
  • γ[0,1] nazywa się współczynnikiem dyskontowym i określa, czy należy skupić się na natychmiastowych nagrodach (γ=0 ), łącznej kwocie (γ=1 ), czy na pewnej wymianie.

Polityka π , według Reinforcement Learning: Wprowadzenie przez Sutton i Barto jest funkcja π:SA (może to być probabilistyczny).

Według preparatów Mario Martins The V funkcja jest

Vπ(s)=Eπ{Rt|st=s}=Eπ{k=0γkrt+k+1|st=s}
a funkcją Q jest
Qπ(s,a)=Eπ{Rt|st=s,at=a}=Eπ{k=0γkrt+k+1|st=s,at=a}

Moje myśli

Funkcja V określa, jaka jest oczekiwana ogólna wartość (nie nagroda!) Stanu s zgodnie z polityką π .

Funkcja określa, jaka jest wartość stanu s i akcji a zgodnie z polityką π .Qsaπ

Oznacza to, że

Qπ(s,π(s))=Vπ(s)

Dobrze? Dlaczego więc w ogóle mamy funkcję wartości? (Chyba coś pomieszałem)

Martin Thoma
źródło

Odpowiedzi:

15

Wartości Q to świetny sposób na wyraźne działanie akcji, dzięki czemu można poradzić sobie z problemami, w których funkcja przejścia nie jest dostępna (bez modelu). Jednak gdy twoja przestrzeń akcji jest duża, rzeczy nie są tak ładne, a wartości Q nie są tak wygodne. Pomyśl o ogromnej liczbie akcji, a nawet ciągłych przestrzeni akcji.

Z perspektywy próbkowania wymiarowość Q(s,a) jest wyższa niż V(s) więc może być trudniej uzyskać wystarczającą ilość próbek (s,a) w porównaniu z (s) . Jeśli masz dostęp do funkcji przejścia, czasami V jest dobre.

Istnieją również inne zastosowania, w których oba są połączone. Na przykład funkcja korzyści, gdzie A(s,a)=Q(s,a)V(s) . Jeśli jesteś zainteresowany, możesz znaleźć najnowszy przykład, używając funkcji przewagi tutaj:

Architektury sieci pojedynków do nauki głębokiego wzmacniania

autorzy: Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot i Nando de Freitas.

Juan Leni
źródło
19

Vπ(s) jest funkcją stanu-wartości MDP (proces decyzyjny Markowa). Jest to oczekiwany zwrot począwszy od pa s Poniższe zasady π .

W wyrażeniu

Vπ(s)=Eπ{Gt|st=s}

Gt jest całkowitą ZNIŻKOWĄ nagrodą od kroku czasut , w przeciwieństwie doRt który jest natychmiastowym zwrotem. Oczekujesz WSZYSTKICH działań zgodnie z polityką π .

Qπ(s,a) to funkcja akcja-wartość. Jest to oczekiwany zwrot od stanus , zgodnie z politykąπ , podejmując działaniea . Koncentruje się na konkretnej akcji w danym stanie.

Qπ(s,a)=Eπ{Gt|st=s,at=a}

Zależność między Qπ i Vπ (wartością bycia w tym stanie) jest

Vπ(s)=aAπ(a|s)Qπ(a,s)

Każdą wartość akcji sumuje się pomnożoną przez prawdopodobieństwo wykonania tej akcji (zasady π(a|s) ).

Jeśli myślisz o przykładzie siatki, pomnóż prawdopodobieństwo (góra / dół / prawo / lewo) przez wartość stanu o jeden krok do przodu (góra / dół / prawo / lewo).

Aaron
źródło
5
To jest najbardziej zwięzła odpowiedź.
Brett,
Mam źródło, które stwierdza, że . Jak odnosisz to równanie do tego, które podajesz w swojej odpowiedzi, V π ( s ) = a A π ( a s ) Q π ( a , s ) ? W swoim równaniu definiujesz V jako ważoną sumę QVπ(s)=maxaAQπ(s,a)Vπ(s)=aAπ(as)Qπ(a,s)VQ wartościRóżni się to od mojej definicji, która definiuje jako najwyższa Q . VQ
nbro
@nbro Uważam, że zależy to od tego, jakie zasady przestrzegasz. W czystej chciwej polityce masz rację. Ale jeśli byłaby to polityka bardziej eksploracyjna, zbudowana tak, aby stochastycznie decydować o akcji, to powyższe byłoby prawidłowe
deltaskelta
7

Masz rację, funkcja V podaje wartość stanu, a Q daje wartość akcji w stanie (zgodnie z daną polityką π ). Najjaśniejsze wyjaśnienie Q-learningu i jego działania znalazłem w książce Toma Mitchella „Machine Learning” (1997), rozdz. 13, który można pobrać. V jest zdefiniowane jako suma szeregu nieskończonego, ale nie ma tutaj znaczenia. Liczy się Q funkcja zdefiniowana jako

Q(s,a)=r(s,a)+γV(δ(s,a))
gdzie V * jest najlepszą wartością stanu, gdybyś mógł zastosować optymalną politykę, której nie znasz. Ma jednak ładną charakterystykę pod względemQ
V(s)=maxaQ(s,a)
ObliczenieQ odbywa się poprzez zastąpienieVw pierwszym równaniu daje
Q(s,a)=r(s,a)+γmaxaQ(δ(s,a),a)

Na początku może się to wydawać dziwną rekurencją, ponieważ wyraża ona wartość Q akcji w bieżącym stanie w kategoriach najlepszej wartości Q stanu następcy , ale ma sens, gdy spojrzysz na to, jak korzysta z niej proces tworzenia kopii zapasowej: eksploracja proces zatrzymuje się, gdy osiągnie stan celu i odbiera nagrodę, która staje się wartością Q ostatecznego przejścia. Teraz, w kolejnym odcinku szkoleniowym, kiedy proces eksploracji osiągnie ten stan poprzednika, proces tworzenia kopii zapasowej wykorzystuje powyższą równość do aktualizacji bieżącej wartości Q stanu poprzednika. Następnym razem jestpoprzednik odwiedzany jest, że wartość Q stanu jest aktualizowana, i tak dalej z powrotem w linii (książka Mitchella opisuje bardziej wydajny sposób na to, przechowując wszystkie obliczenia i odtwarzając je później). Pod warunkiem, że każdy stan jest odwiedzany nieskończenie często, proces ten ostatecznie oblicza optymalną Q

Czasami zobaczysz szybkość uczenia α zastosowaną do kontrolowania, ile Q faktycznie jest aktualizowane:

Q(s,a)=(1α)Q(s,a)+α(r(s,a)+γmaxaQ(s,a))
=Q(s,a)+α(r(s,a)+γmaxaQ(s,a)Q(s,a))
Wskazówki się, że zmiana wartości Qniezależy od bieżącej wartości q. Książka Mitchella wyjaśnia również, dlaczego tak jest i dlaczego potrzebujeszα : jej do stochastycznych MDP. Bezα każdym razem, gdy podejmowana jest próba stanu, para akcji byłaby inna nagroda, więc funkcja Q ^ odbijałaby się po całym miejscu i nie zbiegała się. αjest tak, że ponieważ nowa wiedza jest akceptowana tylko częściowo. Początkowo α jest ustawione na wysoką wartość, tak że prąd (głównie wartości losowe) Q są mniej wpływowe. α maleje wraz z postępem treningu, dzięki czemu nowe aktualizacje mają coraz mniejszy wpływ, a teraz nauka Q jest zbieżna

SN
źródło
0

Oto bardziej szczegółowe wyjaśnienie związku między wartością stanu a wartością akcji w odpowiedzi Aarona. Najpierw spójrzmy na definicje funkcji wartości i funkcji wartości akcji w strategii π :

vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a]
Gt=k=0γkRt+k+1t
vπ(s)=E[Gt|St=s]=gtp(gt|St=s)gt=gtap(gt,a|St=s)gt=ap(a|St=s)gtp(gt|St=s,At=a)gt=ap(a|St=s)E[Gt|St=s,At=a]=ap(a|St=s)qπ(s,a)
vπ(s)=qπ(s,π(s))https://stats.stackexchange.com/questions/347268/proof-of-bellman-optimality-equation/370198#370198 )

Jie Shi
źródło
0

Funkcja wartości jest abstrakcyjnym sformułowaniem użyteczności. Funkcja Q jest wykorzystywana w algorytmie Q-learningu.

Emanuel
źródło
VQ