Wieloręcy bandyci działają dobrze w sytuacjach, w których masz wybór i nie jesteś pewien, który z nich zmaksymalizuje twoje zdrowie. Możesz użyć algorytmu do niektórych rzeczywistych sytuacji. Na przykład nauka może być dobrą dziedziną:
Jeśli dziecko uczy się stolarstwa i jest w tym kiepski, algorytm poinformuje go, że prawdopodobnie powinien przejść dalej. Jeśli jest w tym dobry, algorytm powie mu, aby kontynuował naukę tego pola.
Randki to także dobre pole:
Jesteś mężczyzną, który wkłada wiele wysiłku w ściganie kobiety. Jednak twoje wysiłki są zdecydowanie niepożądane. Algorytm powinien „nieznacznie” (lub zdecydowanie) skłonić cię do przejścia dalej.
Do jakich innych realnych sytuacji możemy użyć algorytmu wielorękiego bandyty?
PS: Jeśli pytanie jest zbyt ogólne, zostaw komentarz. Jeśli dojdzie do konsensusu, usunę moje pytanie.
Odpowiedzi:
Kiedy grasz w oryginalne gry Pokemon (czerwony lub niebieski i żółty) i docierasz do miasta Celadon, automaty do gry w rakiety drużynowe mają różne szanse. Multi-Arm Bandit właśnie tam, jeśli chcesz zoptymalizować uzyskanie tego Porygona naprawdę szybko.
Z całą powagą ludzie mówią o problemie z wyborem zmiennych dostrajających w uczeniu maszynowym. Zwłaszcza jeśli masz wiele zmiennych, rozmawia się o eksploracji vs wykorzystaniu. Zobacz, jak Spearmint lub nawet nowy artykuł w tym temacie, który wykorzystuje super prosty algorytm do wybierania parametrów strojenia (i znacznie przewyższa inne techniki strojenia zmiennych)
źródło
Można je stosować w warunkach leczenia biomedycznego / projektowania badań. Na przykład uważam, że algorytmy q-learningu są używane w testach sekwencyjnych, wielokrotnych przydziałach i próbach losowych ( próby SMART ). Luźno chodzi o to, że reżim leczenia optymalnie dostosowuje się do postępów pacjenta. Oczywiste jest, że może to być najlepsze dla pojedynczego pacjenta, ale może być również bardziej skuteczne w randomizowanych badaniach klinicznych.
źródło
Są one wykorzystywane w testach A / B reklam internetowych, w których różne reklamy są wyświetlane różnym użytkownikom i na podstawie wyników podejmowane są decyzje dotyczące tego, jakie reklamy będą wyświetlane w przyszłości. Jest to opisane w ładnym artykule przez badacza Google Stevena L. Scotta .
źródło
Zadałem to samo pytanie na Quora
Oto odpowiedź
źródło