Bootstrapping w RL można odczytać jako „przy użyciu jednej lub więcej wartości szacunkowych w kroku aktualizacji dla tego samego rodzaju wartości szacunkowej”.
W większości reguł aktualizacji TD zobaczysz coś w rodzaju tej aktualizacji SARSA (0):
Q(s,a)←Q(s,a)+α(Rt+1+γQ(s′,a′)−Q(s,a))
Wartość Rt+1+γQ(s′,a′) jest oszacowaniem dla prawdziwych wartości Q(s,a) , i są również cel TD. Jest to metoda ładowania początkowego, ponieważ częściowo używamy wartości Q do aktualizacji innej wartości Q. Istnieje niewielka ilość obserwowanych danych rzeczywistych w postaci Rt+1 w przejściu stanu, w bezpośrednim nagrody w etapie a także s→s′ .
Porównaj z Monte Carlo, gdzie równoważną zasadą aktualizacji może być:
Q(s,a)←Q(s,a)+α(Gt−Q(s,a))
Gdzie Gt była całkowita zdyskontowana nagroda w czasie t , zakładając, że w tej aktualizacji, że zaczęło się to w stan s , podejmowanie działań a , potem następuje obecną politykę do końca odcinka. Technicznie, Gt=∑T−t−1k=0γkRt+k+1 gdzie Tjest krokiem czasowym dla nagrody i stanu terminala. Warto zauważyć, że ta wartość docelowa w ogóle nie wykorzystuje żadnych szacunków (z innych wartości Q), wykorzystuje jedynie zestaw obserwacji (tj. Nagród) ze środowiska. Jako taki, że zagwarantowane jest nieobciążony oszacowanie prawdziwej wartości Q(s,a) , jak to jest technicznie próbki z Q(s,a) .
Główną wadą ładowania początkowego jest to, że jest on tendencyjny do wartości początkowych Q(s′,a′) (lub V(s′) ). Te są najprawdopodobniej błędne, a system aktualizacji może być niestabilny jako całość z powodu zbyt dużej ilości odnośników i niewystarczającej ilości rzeczywistych danych - jest to problem w przypadku uczenia się poza polityką (np. Q-learning) za pomocą sieci neuronowych.
Bez ładowania początkowego, przy użyciu dłuższych trajektorii, często występuje duża wariancja , co w praktyce oznacza, że potrzebujesz więcej próbek, zanim oszacowania się zbiegną. Tak więc, pomimo problemów z ładowaniem, jeśli można go uruchomić, może uczyć się znacznie szybciej i jest często preferowany w stosunku do podejść Monte Carlo.
Możesz iść na kompromis między metodami opartymi na próbce Monte Carlo i metodami jednoetapowego niszczenia, które ładują się, używając kombinacji wyników z różnych trajektorii długości. Nazywa się to uczeniem TD ( λ ) i istnieje wiele specyficznych metod, takich jak SARSA ( λ ) lub Q ( λ ).
Ogólnie, ładowanie w RL oznacza, że aktualizujesz wartość na podstawie niektórych szacunków, a nie na podstawie pewnych dokładnych wartości. Na przykład
Przyrostowe aktualizacje oceny polityki Monte Carlo:
TD (0) Aktualizacje oceny polityki:
W RT (0), przy czym zwrotny , począwszy od stanu jest szacowana (bootstrapped) przez R t + 1 + y V ( S t + 1 ) , podczas gdy w MC używamy dokładnie zwrotnego G T .s Rt+1+γV(St+1) Gt
źródło