Omówienie algorytmów uczenia się zbrojenia

9

Obecnie szukam Przeglądu algorytmów uczenia się zbrojenia i być może ich klasyfikacji. Ale obok Sarsa i Q-Learning + Deep Q-Learning nie mogę znaleźć żadnych popularnych algorytmów.

Wikipedia daje mi przegląd różnych ogólnych metod uczenia się zbrojenia, ale nie ma odniesienia do różnych algorytmów wdrażających te metody.

Ale może mylę ogólne podejścia i algorytmy i zasadniczo nie ma prawdziwej klasyfikacji w tej dziedzinie, podobnie jak w innych dziedzinach uczenia maszynowego. Czy ktoś może podać mi krótkie wprowadzenie lub tylko odniesienie, w którym mógłbym zacząć czytać o różnych podejściach, różnicach między nimi a przykładowymi algorytmami, które wdrażają te podejścia?

grecja57
źródło

Odpowiedzi:

14

Jest tutaj dobry artykuł ankietowy .

Jako szybki Podsumowując, dodatkowe w stosunku do metod Q-learning, istnieje również klasa metod polityki oparte, gdzie zamiast uczyć funkcję Q, bezpośrednio nauczyć najlepszą polityką do użytku.π

Metody te obejmują popularny algorytm REINFORCE, który jest algorytmem gradientów polityki. TRPO i GAE są podobnymi algorytmami gradientów polityki.

Istnieje wiele innych wariantów gradientów polityki i można je łączyć z Q-learningiem w ramach aktor-krytyk. Algorytm A3C - asynchroniczna korzyść aktor-krytyk - jest jednym z takich algorytmów aktor-krytyk i bardzo silną linią bazową w uczeniu się przez wzmocnienie.

Możesz także wyszukać najlepszą politykę , naśladując dane wyjściowe z optymalnego algorytmu sterowania, co nazywa się wyszukiwaniem polityki z przewodnikiem.π

Oprócz Q-learningu i gradientów zasad, które są zarówno stosowane w ustawieniach wolnych od modelu (żaden algorytm nie utrzymuje modelu świata), istnieją również metody oparte na modelach, które szacują stan świata. Modele te są cenne, ponieważ mogą być znacznie bardziej wydajne pod względem próbkowania.

Algorytmy oparte na modelach nie są wyłączne w przypadku gradientów zasad lub Q-learning. Powszechnym podejściem jest przeprowadzanie estymacji stanu / nauczenie się modelu dynamiki, a następnie szkolenie zasad nad szacowanym stanem.

Jeśli chodzi o klasyfikację, jeden podział byłby

  • Uczenie się funkcji Q lub V.
  • Metody oparte na zasadach
  • Na podstawie modelu

Metody oparte na zasadach można dalej podzielić

  • Gradienty polityki
  • Aktor krytyk
  • Wyszukiwanie zasad
shimao
źródło