Podręcznik nauki o wzmacnianiu

12

Szukam notatek z podręczników / wykładów dotyczących uczenia się wzmacniającego. Lubię „Wprowadzenie do uczenia statystycznego” , ale niestety nie obejmują one tego tematu. Wiem, że książka Suttona i Barto jest standardowym materiałem źródłowym i być może NDP jest również dobra, ale są datowane na lata 1997-98, i miałem nadzieję znaleźć bardziej nowoczesną ekspozycję, ponieważ w tej dziedzinie prawdopodobnie ostatnio nastąpił pewien rozwój czas.

Ulisses
źródło

Odpowiedzi:

15

Myślę, że Sutton i Barto wciąż są standardem. Istnieje wiele tali slajdów i notatek z klas sztucznej inteligencji online, ale zazwyczaj nie zawierają one zbyt wielu szczegółów.

Sutton i Barto są trochę starzy, ale przygotowują drugie wydanie swojego podręcznika. Projekt z stycznia 2018 r. Jest dostępny tutaj ; jest to związane z Suttona strony internetowej , która ma również pełny tekst pierwszej edycji.

TD(λ)

Poza tym możesz spróbować zagłębić się w jakieś dokumenty - nauka na temat wzmacniania zwykle jest dość dostępna.

Matt Krause
źródło
Dzięki, rzuciłem okiem na nowe wydanie, ale nie powiedziałbym, że jest bardzo zaktualizowane. Nadal jestem zainteresowany bardziej aktualną ekspozycją.
Ulysses,
Tak, zdecydowanie nie jest to kompletny przegląd, ale nic innego nie przychodzi mi na myśl poza kilkoma tomami „Notatek wykładowych” Springera, które są w zasadzie tylko kolekcjami artykułów. Jeśli znajdziesz coś innego, opublikuj aktualizację; Chciałbym to sprawdzić.
Matt Krause,
Rozumiem, na pewno to zrobię
Ulysses
1
@CharlieParker, nie jestem pewien. Najnowszy projekt (19 czerwca 2017 r.) Wydaje się dość kompletny i wspomina o MIT Press, ale strona MIT Press wydaje się nadal sprzedawać pierwszą edycję. Co jest warte, szkic pochodzi bezpośrednio z publicznej strony internetowej autorów, więc nie trzeba się martwić o użycie „wyciekającej” wersji lub coś w tym rodzaju.
Matt Krause
1
@ Thomas, zaktualizowałem link nowszą wersją roboczą.
Matt Krause
6

Warto zapoznać się z Algorytmami uczenia się przez zbrojenie autorstwa Csaby Szepesvári, opublikowanym w 2010 r. Plik PDF do pobrania ze strony internetowej. Moim zdaniem jest nieco bardziej techniczny niż Sutton i Barto, ale obejmuje mniej materiału.

wij
źródło
6

Oto kilka dobrych podręczników / referencji:

Klasyczny

Sutton RS, Barto AG. Uczenie się przez zbrojenie: wprowadzenie. Cambridge, Mass: A Bradford Book; 1998. 322 s.

Projekt drugiej edycji jest dostępny za darmo: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

Russell / Norvig Rozdział 21:

Russell SJ, Norvig P, Davis E. Sztuczna inteligencja: nowoczesne podejście. Upper Saddle River, NJ: Prentice Hall; 2010 r.

Bardziej techniczny

Szepesvári C. Algorytmy uczenia wzmacniającego. Wykłady syntetyczne na temat sztucznej inteligencji i uczenia maszynowego. 2010; 4 (1): 1–103. http://www.ualberta.ca/~szepesva/RLBook.html

Bertsekas DP. Programowanie dynamiczne i optymalna kontrola. 4. edycja Belmont, Mass .: Athena Scientific; 2007. 1270 s. Rozdział 6, tom 2 jest dostępny za darmo: http://web.mit.edu/dimitrib/www/dpchapter.pdf

Aby uzyskać najnowsze zmiany

Wiering M., van Otterlo M., redaktorzy. Nauka wzmocnienia. Berlin, Heidelberg: Springer Berlin Heidelberg; 2012 Dostępne od: http://link.springer.com/10.1007/978-3-642-27645-3

Kochenderfer MJ, Amato C, Chowdhary G., How JP, Reynolds HJD, Thornton JR, i in. Podejmowanie decyzji w warunkach niepewności: teoria i zastosowanie. 1 edycja. Cambridge, Massachusetts: The MIT Press; 2015. 352 p.

Uczenie się przez wiele agentów

Buşoniu L, Babuška R, Schutter BD. Nauka wzmocnienia przez wielu agentów: przegląd. W: Srinivasan D, Jain LC, redaktorzy. Innowacje w systemach i aplikacjach wieloagentowych - 1. Springer Berlin Heidelberg; 2010 s. 183–221. Dostępne na: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7

Schwartz HM. Uczenie maszynowe z wieloma agentami: podejście wzmacniające. Hoboken, New Jersey: Wiley; 2014.

Wideo / Kursy

Proponuję również kurs Davida Silvera w YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

Juan Leni
źródło