Studiowałem problemy uczenia się ze wzmocnieniem hierachicznym i chociaż wiele artykułów proponuje algorytmy uczenia się polityki, wydaje się, że wszystkie zakładają, że znają z góry strukturę graficzną opisującą hierarchię działań w dziedzinie. Na przykład metoda MAXQ dla hierarchicznego uczenia się przez zbrojenie autorstwa Dietterich opisuje wykres działań i zadań podrzędnych dla prostej domeny Taxi, ale nie sposób wykrycia tego wykresu. Jak poznałbyś hierarchię tego wykresu, a nie tylko zasady?
Innymi słowy, korzystając z przykładu z gazety, gdyby taksówka jeździła bez celu, z niewielką wcześniejszą znajomością świata, i tylko prymitywnymi czynnościami ruch w lewo / ruch w prawo / itd., W jaki sposób nauczyłaby się akcji wyższego poziomu, takich jak iść-odebrać-pasażera? Jeśli dobrze rozumiem ten artykuł (a być może nie jestem), to sugeruje, jak zaktualizować zasady dla tych działań na wysokim poziomie, ale nie sposób ich tworzenia.
źródło