UCB jest rzeczywiście prawie optymalny w przypadku stochastycznym (do współczynnika logarytmu T dla gry w rundzie T) i do luki w nierówności Pinskera w sensie bardziej zależnym od problemu. Niedawny artykuł Audiberta i Bubecka usuwa tę zależność od logów w najgorszym przypadku, ale ma gorszą sytuację w korzystnym przypadku, gdy różne ramiona mają dobrze rozdzielone nagrody.
Ogólnie rzecz biorąc, UCB jest jednym kandydatem z większej rodziny algorytmów. W dowolnym momencie gry możesz spojrzeć na wszystkie ramiona, które nie są „zdyskwalifikowane”, to znaczy, których górna granica pewności nie jest mniejsza niż dolna granica pewności jakiegoś ramienia. Wybór oparty na dowolnej dystrybucji takiej wykwalifikowanej broni stanowi ważną strategię i budzi podobny żal do stałych.
Z empirycznego punktu widzenia nie sądzę, że dokonano znaczącej oceny wielu różnych strategii, ale myślę, że UCB jest często całkiem niezły.
Większość najnowszych badań koncentruje się na rozszerzeniu problemów bandytów poza proste ustawienie z uzbrojeniem K ze stochastycznymi nagrodami, na bardzo duże (lub nieskończone) przestrzenie akcji, z lub bez informacji bocznych i pod stochastyczną lub przeciwną reakcją. Pracowano również w scenariuszach, w których kryteria wydajności są różne (takie jak tylko identyfikacja najlepszego ramienia).