Czytałem o wielu algorytmów rozwiązywania problemów n uzbrojonych bandyckie jak -greedy, Softmax i UCB1, ale mam pewne problemy z sortowaniem przez co jest najlepsze podejście do minimalizacji żal.
Czy istnieje znany optymalny algorytm rozwiązywania problemu n-uzbrojonego bandyty? Czy istnieje wybór algorytmu, który wydaje się działać najlepiej w praktyce?
Odpowiedzi:
Oto dwa artykuły z badań, które niedawno znalazłem. Jeszcze ich nie czytałem, ale streszczenia brzmią obiecująco.
Joann`s Vermorel i Mehryar Mohri: Algorytmy wielorękiego bandyty i ocena empiryczna (2005)
Z streszczenia:
Volodymyr Kuleshov i Doina Precup: Algorytmy dla problemu wielorękiego bandyty (2000) Ze streszczenia:
źródło