Poznanie struktury hierarchicznego zadania zbrojenia

9

Studiowałem problemy uczenia się ze wzmocnieniem hierachicznym i chociaż wiele artykułów proponuje algorytmy uczenia się polityki, wydaje się, że wszystkie zakładają, że znają z góry strukturę graficzną opisującą hierarchię działań w dziedzinie. Na przykład metoda MAXQ dla hierarchicznego uczenia się przez zbrojenie autorstwa Dietterich opisuje wykres działań i zadań podrzędnych dla prostej domeny Taxi, ale nie sposób wykrycia tego wykresu. Jak poznałbyś hierarchię tego wykresu, a nie tylko zasady?

Innymi słowy, korzystając z przykładu z gazety, gdyby taksówka jeździła bez celu, z niewielką wcześniejszą znajomością świata, i tylko prymitywnymi czynnościami ruch w lewo / ruch w prawo / itd., W jaki sposób nauczyłaby się akcji wyższego poziomu, takich jak iść-odebrać-pasażera? Jeśli dobrze rozumiem ten artykuł (a być może nie jestem), to sugeruje, jak zaktualizować zasady dla tych działań na wysokim poziomie, ale nie sposób ich tworzenia.

Cerin
źródło

Odpowiedzi:

8

Według tego artykułu

W obecnym stanie techniki projektant systemu RL zwykle korzysta z wcześniejszej wiedzy o zadaniu, aby dodać określony zestaw opcji do zestawu podstawowych operacji dostępnych dla agenta.

Zobacz także rozdział 6.2 Uczenie się hierarchii zadań w tym samym dokumencie.

Pierwszą ideą, jaka przychodzi mi do głowy, jest to, że jeśli nie znasz hierarchii zadań, powinieneś zacząć od uczenia się niehacharialnego i próbować odkryć strukturę później lub podczas nauki, tzn. Próbujesz uogólnić swój model. Dla mnie to zadanie wygląda podobnie do techniki łączenia modelu Bayesa dla HMM (na przykład zobacz tę tezę )

Alexey Kalmykov
źródło