Co to jest cykliczne uczenie się zbrojenia

20

Ostatnio natknąłem się na słowo „Recurrent Reinforcement Learning”. Rozumiem, czym jest „Recurrent Neur Network” i czym jest „Reinforcement Learning”, ale nie mogłem znaleźć wielu informacji na temat tego, czym jest „Recurrent Reinforcement Learning”.

Czy ktoś może mi wyjaśnić, czym jest „uczenie się z powtarzalnym wzmocnieniem” i jaka jest różnica między „uczeniem się z powtarzalnym wzmocnieniem” a normalnym „uczeniem się z wzmocnieniem”, takim jak algorytm Q-Learning.

Negatywne zero
źródło

Odpowiedzi:

15

Co to jest „powtarzające się uczenie się o wzmocnieniu”?

Rekurencyjne uczenie się wzmacniające ( RRL ) zostało po raz pierwszy wprowadzone do szkolenia systemów handlu sieciami neuronowymi w 1996 r. „Rekurencyjny” oznacza, że ​​poprzednie dane wyjściowe są wprowadzane do modelu jako część danych wejściowych. Wkrótce został rozszerzony na handel na rynku walutowym.

Stwierdzono, że technika RRL jest skuteczną techniką uczenia maszynowego do budowy systemów handlu finansowego.

Jaka jest różnica między „uczeniem się nawracającym” a normalnym „uczeniem się wzmacniającym” (jak algorytm Q-Learning)?

W RRL różni się wyraźnie od podejścia dynamicznego programowania i algorytmów wzmacniających takich jak TD-learning i Q-learning , które próbują oszacować funkcję wartości do problemu sterowania.

Struktura RRL pozwala stworzyć prostą i elegancką reprezentację problemu, pozwala uniknąć przekleństw Bellmana dotyczących wymiarów i oferuje przekonujące zalety w zakresie wydajności:

RRL naturalnie generuje akcje o wartościach rzeczywistych (wagi portfela) bez uciekania się do metody dyskretyzacji w Q-learningu .

RRL ma bardziej stabilną wydajność w porównaniu do Q-learningu, gdy jest narażony na hałasujące zbiory danych. Algorytm uczenia Q jest bardziej wrażliwy na wybór funkcji wartości (być może) ze względu na rekurencyjną właściwość dynamicznej optymalizacji, podczas gdy algorytm RRL jest bardziej elastyczny w wyborze funkcji celu i oszczędzaniu czasu obliczeniowego.

U()

Tutaj znajdziesz implementację Matlaba algorytmu RRL.


Bibliografia

Uczenie się przez zbrojenie dla handlu

Uczenie się o wzmocnieniu systemów transakcyjnych i portfeli

Handel walutami poprzez cykliczne uczenie się na temat wzmacniania

Handel akcjami za pomocą okresowego uczenia się zbrojenia (RRL)

Handel algorytmami za pomocą Q-Learning i Recurrent Reinforcement Learning

ODKRYWANIE ALGORYTMÓW DLA AUTOMATYCZNEGO HANDLU FX - KONSTRUKCJA MODELU HYBRYDOWEGO

Anton Daniłow
źródło
@AntonDanilov Nie jestem pewien, czy jesteś tego świadomy. Facet, który wpadł na ten pomysł (twój pierwszy ref. J Moody), prowadził fundusz, korzystając z tego algo - a jego wyniki były dalekie od spektakularnych.
horaceT
Więc dobrze wiedzieć, ale jak zmienia się odpowiedź wroga
Anton Danilov
2

Różnica (Głębokiego) Rekurencyjnego RL polega na tym, że funkcją mapującą obserwacje agentów na ich działanie wyjściowe jest Rekurencyjna Sieć Neuronowa.

Nawracająca sieć neuronowa to rodzaj sieci neuronowej, która przetwarza każdą obserwację sekwencyjnie, w taki sam sposób dla każdego kroku czasowego.

Artykuł oryginalny: Deep Recurrent Q-Learning dla częściowo obserwowalnych MDP

LearnOPhile
źródło