Witryna sztucznej inteligencji definiuje uczenie się poza polityką i nauczanie na zasadach w następujący sposób:
„Osoba ucząca się poza polityką poznaje wartość optymalnej polityki niezależnie od działań agenta. Q-learning jest osobą uczącą się poza polityką. Uczący się polityki poznaje wartość polityki realizowanej przez agenta, w tym kroki eksploracji . ”
Chciałbym prosić o wyjaśnienie w tej sprawie, ponieważ wydaje się, że nie mają one dla mnie żadnego znaczenia. Obie definicje wydają się identyczne. To, co właściwie zrozumiałem, to uczenie się bez modeli i oparte na modelach i nie wiem, czy mają one coś wspólnego z tymi, o których mowa.
W jaki sposób możliwe jest poznanie optymalnej polityki niezależnie od działań agenta? Czy zasady nie są uczone, gdy agent wykonuje działania?
Odpowiedzi:
Po pierwsze, nie ma powodu, aby agent musiał robić chciwe działania ; Agenci mogą eksplorować lub mogą śledzić opcje . Nie to odróżnia uczenie się od polityki od nauki poza polityką.
Rozróżnienie znika, jeśli obecna polityka jest polityką chciwą. Jednak taki agent nie byłby dobry, ponieważ nigdy nie bada.
Czy obejrzałeś książkę dostępną za darmo online? Richard S. Sutton i Andrew G. Barto. Uczenie się przez wzmocnienie: wprowadzenie. Druga edycja, MIT Press, Cambridge, MA, 2018.
źródło
Metody na polisie szacują wartość polityki podczas używania jej do kontroli.
W off-politycznych metodami, polityka wykorzystywane do generowania zachowań, zwany zachowanie polityki, może być związane z polityką, która jest oceniana i poprawy, zwany szacowania politykę.
Zaletą tego oddzielenia jest to, że polityka szacowania może być deterministyczna (np. Zachłanna), podczas gdy polityka zachowania może kontynuować próbkowanie wszystkich możliwych działań.
Aby uzyskać więcej informacji, zobacz sekcje 5.4 i 5.6 książki Reinforcement Learning: An Introduction autorstwa Barto i Sutton, pierwsze wydanie.
źródło
Różnica między metodami niezgodnymi z polisami i metodami związanymi z polisami polega na tym, że przy pierwszym nie trzeba stosować się do żadnych konkretnych zasad, agent może nawet zachowywać się losowo, a mimo to metody niezgodne z zasadami nadal mogą znaleźć optymalne zasady. Z drugiej strony metody stosowane w polisach zależą od zastosowanych zasad. W przypadku Q-Learning, która jest poza polisą, znajdzie optymalną politykę niezależną od polityki używanej podczas eksploracji, jednak jest to prawdą tylko wtedy, gdy odwiedzasz różne stany wystarczająco często. W oryginalnym artykule Watkinsa można znaleźć rzeczywisty dowód, który pokazuje tę bardzo ładną właściwość Q-Learning. Istnieje jednak kompromis, czyli metody niezgodne z polityką są zwykle wolniejsze niż metody zgodne z polityką. Tutaj link z innym interesującym podsumowaniem właściwości obu rodzajów metod
źródło
Przede wszystkim, co właściwie oznacza polityka (oznaczona przez )? Polityka określa działanie , które jest podejmowane w stanie (a ściślej, jest prawdopodobieństwem, że działanie jest podejmowane w stanie ).π
a s π a s
Po drugie, jakie mamy rodzaje uczenia się?Q(s,a) a s
π π(a|s)
1. Oceń funkcję : przewiduj sumę przyszłych zdyskontowanych nagród, gdzie jest akcją, a stanem. 2. Znajdź (właściwie ), co daje maksymalną nagrodę.
Powrót do pierwotnego pytania. Uczenie się na polityce i poza polityką dotyczy tylko pierwszego zadania: oceny .Q(s,a)
Różnica jest taka:Q(s,a) π
Q(s,a)
W na politykę uczenia się funkcja jest dowiedział się od działań, wzięliśmy za pomocą naszej obecnej polityki . W uczeniu się poza polityką funkcja jest uczona z różnych akcji (na przykład akcji losowych). W ogóle nie potrzebujemy żadnej polityki!
Jest to funkcja aktualizacji algorytmu SARSA zgodnie z polityką : , gdzie to działanie wykonane zgodnie z polityką .Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) a′ π
Porównaj to z funkcją aktualizacji dla algorytmu Q-uczenia się poza polityką : , gdzie to wszystkie akcje, które zostały sondowane w stanie .Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)−Q(s,a)) a′ s′
źródło
Z książki Sutton: „Podejście oparte na polityce w poprzedniej części jest w rzeczywistości kompromisem - uczy się wartości działań nie dla optymalnej polityki, ale dla prawie optymalnej polityki, która wciąż bada. Bardziej prostym podejściem jest użycie dwóch polityk , o której się dowiemy i która staje się polityką optymalną, i która jest bardziej eksploracyjna i służy do generowania zachowania. Informacje o polityce są nazywane polityką docelową, a polityka używana do generowania zachowania nazywa się polityką zachowania. W tym przypadku mówimy, że uczenie się odbywa się na podstawie danych „o” polityki docelowej, a cały proces nazywa się uczeniem się polityki. ”
źródło