Uczenie się przez wzmocnienie w środowisku niestacjonarnym [zamknięte]

9

P1: Czy istnieją ogólnie przyjęte lub powszechnie akceptowane metody radzenia sobie ze środowiskiem niestacjonarnym w uczeniu się przez zbrojenie?

P2: W moim świecie gridu funkcja nagrody zmienia się, gdy odwiedzany jest stan. W każdym odcinku nagrody są resetowane do stanu początkowego. Chcę tylko, aby mój agent się nauczył: „Nie wracaj, chyba że naprawdę potrzebujesz”, ale to sprawia, że ​​środowisko nie jest stacjonarne. Czy / Czy ta bardzo prosta reguła powinna zostać włączona do modelu MDP i jak? Czy Q-learning jest najlepszym rozwiązaniem do radzenia sobie z tym problemem? Wszelkie sugestie lub dostępne przykłady?

P3: Przyglądam się Q-learningowi z powtórką z doświadczenia jako rozwiązaniem do radzenia sobie w środowiskach niestacjonarnych, ponieważ dekoreluje kolejne aktualizacje. Czy jest to właściwe zastosowanie tej metody, czy raczej chodzi o zwiększenie wydajności uczenia się? I widziałem to tylko z przybliżeniem wartości. Nie jestem pewien, czy używanie nadmiernej umiejętności w zwykłej dyskretnej przestrzeni stanów, takiej jak gridworld, jest przesadą, czy jest to inny powód.

Prosimy o odpowiedź lub komentarz, nawet jeśli nie możesz odpowiedzieć na wszystkie pytania.

Voltronika
źródło

Odpowiedzi:

10

P1: Czy istnieją ogólnie przyjęte lub powszechnie akceptowane metody radzenia sobie ze środowiskiem niestacjonarnym w uczeniu się przez zbrojenie?

Większość podstawowych agentów RL działa w trybie online, a nauka online zazwyczaj rozwiązuje problemy niestacjonarne. Ponadto reguły aktualizacji dla estymatorów wartości stanu i wartości akcji w problemach sterowania są zwykle zapisywane dla niestacjonarnych celów, ponieważ cele już się zmieniają wraz z poprawą zasad. Nie jest to nic skomplikowanego, po prostu zastosowanie współczynnika uczenia sięα w aktualizacjach przy szacowaniu wartości, skutecznie tocząca się średnia geometryczna, w przeciwieństwie do uśredniania dla całej historii w nieważony sposób.

Jednak dotyczy to długoterminowej niestacjonarności, takiej jak problem ze zmianą epizodów lub nawet w dłuższej skali czasowej. Twój opis wygląda bardziej tak, jakbyś chciał zmienić strukturę nagród na podstawie działań podjętych przez agenta w krótkim czasie. Ta dynamiczna reakcja na działania jest lepiej sformułowana jako inny, bardziej złożony MDP, a nie jako „niestacjonarność” w prostszym MDP.

Agent nie może nauczyć się zmian w środowisku, których nie próbkował jeszcze, więc zmiana struktury nagrody nie uniemożliwi powrotu agenta do wcześniej odwiedzonych stanów. O ile nie użyjesz czegoś takiego jak RNN ​​w agencie, agent nie będzie miał „pamięci” tego, co wydarzyło się wcześniej w odcinku, innej niż to, co jest reprezentowane w bieżącym stanie (prawdopodobnie użycie RNN powoduje, że ukryta warstwa RNN staje się częścią państwowe). W wielu odcinkach, jeśli użyjesz tabelarycznego agenta Q-learningu, wówczas agent po prostu dowie się, że niektóre stany mają niską wartość, nie będzie w stanie dowiedzieć się, że druga lub trzecia wizyta w tym stanie powoduje ten efekt, ponieważ nie ma sposób na przedstawienie tej wiedzy. Nie będzie w stanie dostosować się do zmiany wystarczająco szybko, aby uczyć się online i w połowie odcinka.

P2: W moim świecie gridu funkcja nagrody zmienia się, gdy odwiedzany jest stan. Chcę tylko, aby mój agent się nauczył: „Nie wracaj, chyba że naprawdę potrzebujesz”, ale to sprawia, że ​​środowisko nie jest stacjonarne.

Jeśli to wszystko, czego potrzebujesz, aby nauczyć się agenta, być może może to zachęcić odpowiednia struktura nagród. Zanim to zrobisz, musisz zrozumieć, co oznacza „naprawdę” i jak mocno musi to być logicznie. Możesz być w porządku, po prostu nakładając karę za odwiedzenie dowolnego miejsca, które agent już lub niedawno odwiedził.

Czy / Czy ta bardzo prosta reguła powinna zostać włączona do modelu MDP i jak?

Tak, należy dodać informacje o odwiedzonych lokalizacjach do stanu. To natychmiast uczyni model państwa bardziej złożonym niż prosty świat siatki, zwiększając wymiar problemu, ale jest to nieuniknione. Większość rzeczywistych problemów bardzo szybko przerasta przykłady zabawek podane do nauczania pojęć RL.

Jedną z możliwości jest ujęcie problemu jako częściowo obserwowalny proces decyzyjny Markowa (POMDP) . W takim przypadku stan „prawdziwy” nadal obejmowałby całą niezbędną historię w celu obliczenia nagród (a ponieważ jest to problem z zabawką na komputerze, nadal musiałbyś go jakoś reprezentować), ale agent może próbować uczyć się z ograniczonego zakresu znajomość stanu, cokolwiek pozwolisz mu obserwować. Zasadniczo jest to znacznie trudniejsze podejście niż rozszerzenie reprezentacji państwa i nie poleciłbym go tutaj. Jeśli jednak uważasz ten pomysł za interesujący, możesz wykorzystać swój problem do zbadania POMDP. Oto najnowszy artykuł (z zespołu Deep Mind firmy Google, 2015), który analizuje dwa algorytmy RL w połączeniu z RNN w celu rozwiązania POMDP.

P3: Przyglądam się Q-learningowi z powtórką z doświadczenia jako rozwiązaniem do radzenia sobie w środowiskach niestacjonarnych, ponieważ dekoreluje kolejne aktualizacje. Czy jest to właściwe zastosowanie tej metody, czy raczej chodzi o zwiększenie wydajności uczenia się?

Odtwarzanie doświadczeń nie pomoże w niestacjonarnych środowiskach. W rzeczywistości może to pogorszyć ich wydajność. Jednak, jak już wspomniano, twój problem nie dotyczy tak naprawdę niestacjonarnego środowiska, ale obsługi bardziej złożonej dynamiki stanu.

Co może trzeba zrobić, to patrzeć w funkcji zbliżenia, jeśli liczba członkowskich wzrasta do dużej liczby mało. Na przykład, jeśli chcesz obsługiwać dowolną back-tracking i mają skomplikowaną zasadę nagradzania modyfikujące że każdy utworów odwiedzanych lokalizacji, wówczas państwo może przejść z jednego numeru lokalizacji na mapie pokazano odwiedzanych miejscach. Na przykład może pochodzić64 stwierdza dla 8×8 świat siatki do 2)64mapa stanu pokazująca odwiedzone kwadraty. Jest to o wiele za dużo, aby można było je prześledzić w tabeli wartości, dlatego zwykle do oszacowania wartości stanów używasz sieci neuronowej (lub splotowej sieci neuronowej).

W przypadku estymatora funkcji odtwarzanie doświadczenia jest bardzo przydatne, ponieważ bez niego proces uczenia się może być niestabilny. Najnowsze podejście DQN do grania w gry Atari wykorzystuje z tego powodu powtórkę doświadczenia.

Neil Slater
źródło
Jeśli środowisko nie jest stacjonarne, to jak radzisz sobie z faktem, że na przykład w świecie siatki bycie w stanie w czasie t = 1 nie jest tym samym, co bycie w tym stanie w czasie t = 2? Jeśli traktujesz je jako osobne stany, to z pewnością wymiar twojej przestrzeni stanowej po prostu eksploduje?
próbujetolearn
@tryingtolearn: Cały sens stanu Markowa polega na tym, że przechwytuje on wszystkie ważne szczegóły dotyczące postępów MDP od tego momentu. Zazwyczaj bycie w stanie przy t = 1 nie różni się od bycia w tym samym stanie przy t = 2, pod względem oczekiwanej przyszłej nagrody i zmian stanu. Jeśli skończysz z regułami opartymi na wartości t, to wprowadzasz t do stanu. Może się to zdarzyć, jeśli możesz zdobyć nagrodę w dowolnym momencie, ale liczba kroków jest ograniczona - odcinek zawsze kończy się na przykład przy t = 10. W takim przypadku znajomość pozostałego czasu może być ważna
Neil Slater,
@NeilSlater, czy możesz rozwinąć pomysły POMDP i RNN w swojej odpowiedzi? Brzmią interesująco. I jeśli to możliwe, podaj odpowiednie źródła, ponieważ czasami trudno jest poruszać się po literaturze. Naprawdę nie podoba mi się pomysł zachowania sekwencji odwiedzonych stanów, chociaż to jedyna rzecz, o której do tej pory mogłem wymyślić, więc szukam innych opcji. Model staje się w ten sposób nadmiernie skomplikowany, biorąc pod uwagę, że muszę wprowadzić bardzo prostą zasadę. Nie jestem pewien, czy brakuje mi czegoś bardzo oczywistego, czy po prostu nie używam właściwego modelu i sformułowania.
Voltronika,
@NeilSlater Czy nie można temu zaradzić, stosując metody takie jak gradient polityki? Czy w praktyce wiesz, jaki jest standard rozwiązywania tego rodzaju problemów?
próbujetolearn
1
@Voltronika Rozszerzyłem odpowiedź, dodając akapit o POMDP. Pamiętaj, że zdefiniowanie problemu jako POMDP znacznie utrudnia pracę i rozwiązywanie, niż rozszerzanie stanu o odpowiednią pamięć odwiedzanych lokalizacji. Proponuję więc przyjrzeć się temu, jeśli celem jest badanie POMDP.
Neil Slater,
0

Q1: Q learning to internetowy algorytm uczenia wzmacniającego, który działa dobrze w środowisku stacjonarnym. Może być również używany z modelem niestacjonarnym pod warunkiem, że model (funkcja nagrody i prawdopodobieństwo przejścia) nie zmienia się szybko.

Khalid Ibrahim
źródło