Projektując rozwiązania problemów, takich jak Lunar Lander na OpenAIGym , Reinforcement Learning to kuszący sposób na zapewnienie agentowi odpowiedniej kontroli działania, tak aby z powodzeniem wylądować.
Ale w jakich przypadkach algorytmy systemu sterowania, takie jak sterowniki PID , wykonałyby tylko odpowiednie zadanie, jeśli nie lepsze niż Reinforcement Learning?
Pytania takie jak to świetnie sprawdzają się w teorii tego pytania, ale niewiele robią, aby odnieść się do części praktycznej.
Jako inżynier sztucznej inteligencji, jakie elementy domeny problemowej powinny sugerować, że kontroler PID jest niewystarczający do rozwiązania problemu, a zamiast tego należy zastosować algorytm uczenia wzmacniającego (lub odwrotnie)?
reinforcement-learning
ai-design
control-theory
SeeDerekEngineer
źródło
źródło
Odpowiedzi:
Myślę, że komentarze są w zasadzie na dobrej drodze.
Kontrolery PID są przydatne do znajdowania optymalnych polityk w ciągłych systemach dynamicznych i często te domeny są również używane jako punkty odniesienia dla RL, właśnie dlatego, że istnieje łatwo wyprowadzona optymalna polityka. Jednak w praktyce wolisz oczywiście kontroler PID dla każdej domeny, w której możesz łatwo go zaprojektować: zachowania kontrolera są dobrze zrozumiane, a rozwiązania RL są często trudne do interpretacji.
RL świeci w zadaniach, w których wiemy, jak wygląda dobre zachowanie (tj. Znamy funkcję nagrody) i wiemy, jak wyglądają wejścia czujnika (tj. Możemy całkowicie i dokładnie opisać dany stan numerycznie), ale mamy niewiele lub nie mam pojęcia, co tak naprawdę chcemy, aby agent zrobił, aby osiągnąć te nagrody.
Oto dobry przykład:
Gdybym chciał stworzyć agenta do manewrowania samolotem przed samolotem wroga ze znanymi wzorami ruchu za nim, zużywając najmniej paliwa, zdecydowanie wolałbym użyć kontrolera PID .
Gdybym chciał stworzyć agenta do kontrolowania samolotu i zestrzelenia samolotu wroga z wystarczającą ilością paliwa do wylądowania, ale bez formalnego opisu, w jaki sposób samolot wroga może zaatakować (być może ludzki ekspert pilotuje go w symulacji przeciwko naszemu agentowi) , Wolałbym RL .
źródło