Interesuje mnie (Deep) Reinforcement Learning (RL) . Czy przed nurkowaniem w tym polu powinienem wziąć udział w kursie z teorii gier (GT) ?
W jaki sposób powiązane są GT i RL ?
Interesuje mnie (Deep) Reinforcement Learning (RL) . Czy przed nurkowaniem w tym polu powinienem wziąć udział w kursie z teorii gier (GT) ?
W jaki sposób powiązane są GT i RL ?
Odpowiedzi:
W Reinforcement Learning (RL) powszechne jest wyobrażanie sobie leżącego u podstaw procesu decyzyjnego Markowa (MDP). Następnie celem RL jest poznanie dobrej polityki dla MDP, która często jest tylko częściowo określona. MDP mogą mieć różne cele, takie jak łączna, średnia lub zdyskontowana nagroda, przy czym nagroda zdyskontowana jest najczęstszym założeniem RL. Istnieją dobrze zbadane rozszerzenia MDP do ustawień dla dwóch graczy (tj. Gry); patrz np.
Filar, Jerzy i Koos Vrieze. Konkurencyjne procesy decyzyjne Markowa . Springer Science & Business Media, 2012.
Istnieje podstawowa teoria podzielona przez MDP i ich rozszerzenia na gry dwuosobowe (o sumie zerowej), w tym np. Twierdzenie Banacha o stałym punkcie, Iteracja wartości, Optymalność Bellmana, Iteracja polityki / Ulepszenie strategii itp. Jednakże, chociaż istnieją te bliskie powiązania między MDP (a tym samym RL) a tymi konkretnymi typami gier:
źródło
Teoria gier jest dość zaangażowana w kontekście uczenia się przez wielu agentów (MARL).
Rzuć okiem na stochastyczne gry lub przeczytaj artykuł Analiza stochastycznej teorii gier na uczenie się przez wiele czynników .
Nie widziałbym GT jako warunku wstępnego dla RL. Stanowi jednak ładne rozszerzenie do sprawy z wieloma agentami.
źródło
RL: Pojedynczy agent jest przeszkolony do rozwiązania problemu decyzyjnego Markowa (MDPS). GT: Dwóch agentów jest przeszkolonych do rozwiązywania gier. Nauka stochastycznych gier może być wykorzystana do uczenia się przez wielu agentów (MARL).
Jeśli interesuje Cię aplikacja RL dla jednego agenta w głębokim uczeniu się, nie musisz iść na kurs GT. W przypadku dwóch lub więcej agentów może być konieczne poznanie technik teoretycznych.
źródło