Wydaje mi się, że funkcja może być łatwo wyrażona przez funkcję a zatem funkcja wydaje mi się zbędna. Jednak jestem nowy w uczeniu się przez wzmacnianie, więc chyba coś poszło nie tak.
Definicje
Q- i V-learning są w kontekście procesów decyzyjnych Markowa . MDP jest 5-krotny z
- jest zbiorem stanów (zazwyczaj skończonych)
- jest zbiorem działań (zazwyczaj skończonych)
- to prawdopodobieństwo przejścia ze stanu do stanu z działaniem .
- jest natychmiastową nagrodą po przejściu ze stanu do stanu z działaniem . (Wydaje mi się, że zwykle tylko spraw).
- nazywa się współczynnikiem dyskontowym i określa, czy należy skupić się na natychmiastowych nagrodach ( ), łącznej kwocie ( ), czy na pewnej wymianie.
Polityka , według Reinforcement Learning: Wprowadzenie przez Sutton i Barto jest funkcja (może to być probabilistyczny).
Według preparatów Mario Martins The funkcja jest
Moje myśli
Funkcja określa, jaka jest oczekiwana ogólna wartość (nie nagroda!) Stanu zgodnie z polityką .
Funkcja określa, jaka jest wartość stanu s i akcji a zgodnie z polityką π .
Oznacza to, że
Dobrze? Dlaczego więc w ogóle mamy funkcję wartości? (Chyba coś pomieszałem)
źródło
Masz rację, funkcjaV podaje wartość stanu, a Q daje wartość akcji w stanie (zgodnie z daną polityką π ). Najjaśniejsze wyjaśnienie Q-learningu i jego działania znalazłem w książce Toma Mitchella „Machine Learning” (1997), rozdz. 13, który można pobrać. V jest zdefiniowane jako suma szeregu nieskończonego, ale nie ma tutaj znaczenia. Liczy się Q funkcja zdefiniowana jako
Na początku może się to wydawać dziwną rekurencją, ponieważ wyraża ona wartość Q akcji w bieżącym stanie w kategoriach najlepszej wartości Q stanu następcy , ale ma sens, gdy spojrzysz na to, jak korzysta z niej proces tworzenia kopii zapasowej: eksploracja proces zatrzymuje się, gdy osiągnie stan celu i odbiera nagrodę, która staje się wartością Q ostatecznego przejścia. Teraz, w kolejnym odcinku szkoleniowym, kiedy proces eksploracji osiągnie ten stan poprzednika, proces tworzenia kopii zapasowej wykorzystuje powyższą równość do aktualizacji bieżącej wartości Q stanu poprzednika. Następnym razem jestpoprzednik odwiedzany jest, że wartość Q stanu jest aktualizowana, i tak dalej z powrotem w linii (książka Mitchella opisuje bardziej wydajny sposób na to, przechowując wszystkie obliczenia i odtwarzając je później). Pod warunkiem, że każdy stan jest odwiedzany nieskończenie często, proces ten ostatecznie oblicza optymalną Q
Czasami zobaczysz szybkość uczeniaα zastosowaną do kontrolowania, ile Q faktycznie jest aktualizowane:
Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
Wskazówki się, że zmiana wartości Qniezależy od bieżącej wartości q. Książka Mitchella wyjaśnia również, dlaczego tak jest i dlaczego potrzebujeszα : jej do stochastycznych MDP. Bezα każdym razem, gdy podejmowana jest próba stanu, para akcji byłaby inna nagroda, więc funkcja Q ^ odbijałaby się po całym miejscu i nie zbiegała się. α jest tak, że ponieważ nowa wiedza jest akceptowana tylko częściowo. Początkowo α jest ustawione na wysoką wartość, tak że prąd (głównie wartości losowe) Q są mniej wpływowe. α maleje wraz z postępem treningu, dzięki czemu nowe aktualizacje mają coraz mniejszy wpływ, a teraz nauka Q jest zbieżna
źródło
Oto bardziej szczegółowe wyjaśnienie związku między wartością stanu a wartością akcji w odpowiedzi Aarona. Najpierw spójrzmy na definicje funkcji wartości i funkcji wartości akcji w strategiiπ :
vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a] Gt=∑∞k=0γkRt+k+1 t vπ(s)=E[Gt|St=s]=∑gtp(gt|St=s)gt=∑gt∑ap(gt,a|St=s)gt=∑ap(a|St=s)∑gtp(gt|St=s,At=a)gt=∑ap(a|St=s)E[Gt|St=s,At=a]=∑ap(a|St=s)qπ(s,a) vπ(s)=qπ(s,π(s)) https://stats.stackexchange.com/questions/347268/proof-of-bellman-optimality-equation/370198#370198 )
źródło
Funkcja wartości jest abstrakcyjnym sformułowaniem użyteczności. Funkcja Q jest wykorzystywana w algorytmie Q-learningu.
źródło