W jakich rzeczywistych sytuacjach możemy zastosować algorytm wielorękiego bandyty?

15

Wieloręcy bandyci działają dobrze w sytuacjach, w których masz wybór i nie jesteś pewien, który z nich zmaksymalizuje twoje zdrowie. Możesz użyć algorytmu do niektórych rzeczywistych sytuacji. Na przykład nauka może być dobrą dziedziną:

Jeśli dziecko uczy się stolarstwa i jest w tym kiepski, algorytm poinformuje go, że prawdopodobnie powinien przejść dalej. Jeśli jest w tym dobry, algorytm powie mu, aby kontynuował naukę tego pola.

Randki to także dobre pole:

Jesteś mężczyzną, który wkłada wiele wysiłku w ściganie kobiety. Jednak twoje wysiłki są zdecydowanie niepożądane. Algorytm powinien „nieznacznie” (lub zdecydowanie) skłonić cię do przejścia dalej.

Do jakich innych realnych sytuacji możemy użyć algorytmu wielorękiego bandyty?

PS: Jeśli pytanie jest zbyt ogólne, zostaw komentarz. Jeśli dojdzie do konsensusu, usunę moje pytanie.

Andy K.
źródło
3
Biorąc pod uwagę, że istnieją 3 głosowane odpowiedzi (jak dotąd), nie sądzę, aby było to zbyt szerokie, aby można było na nie odpowiedzieć.
gung - Przywróć Monikę
@gung Mam więcej głosów pozytywnych, ale nie mają one wpływu na mój wynik. Dlaczego?
Andy K,
5
To dlatego, że ten wątek to wiki społeczności (CW), @AndyK. Gdy wątek ma charakter CW, ludzie nie uzyskują reputacji na podstawie opinii pozytywnych (ani nie tracą jej na podstawie opinii negatywnych). Jednak normalnie zdobywałbyś odznaki. Pytania takie jak te, które wymagają list rzeczy i gdzie nie ma jednej, wyraźnej „poprawnej” odpowiedzi, powinny być nie na temat na stronach SE. Naszym kompromisem (uważam, że robią to również inne strony) jest umożliwienie zadawania takich pytań w poszczególnych przypadkach, ale sprawienie, by były CW.
gung - Przywróć Monikę
wystarczy @gung
Andy K
1
przyjęcia na studia. Wybór wskaźników do wyboru biorców narządów od dawcy.
EngrStudent - Przywróć Monikę

Odpowiedzi:

8

Kiedy grasz w oryginalne gry Pokemon (czerwony lub niebieski i żółty) i docierasz do miasta Celadon, automaty do gry w rakiety drużynowe mają różne szanse. Multi-Arm Bandit właśnie tam, jeśli chcesz zoptymalizować uzyskanie tego Porygona naprawdę szybko.

Z całą powagą ludzie mówią o problemie z wyborem zmiennych dostrajających w uczeniu maszynowym. Zwłaszcza jeśli masz wiele zmiennych, rozmawia się o eksploracji vs wykorzystaniu. Zobacz, jak Spearmint lub nawet nowy artykuł w tym temacie, który wykorzystuje super prosty algorytm do wybierania parametrów strojenia (i znacznie przewyższa inne techniki strojenia zmiennych)

www3
źródło
6

Można je stosować w warunkach leczenia biomedycznego / projektowania badań. Na przykład uważam, że algorytmy q-learningu są używane w testach sekwencyjnych, wielokrotnych przydziałach i próbach losowych ( próby SMART ). Luźno chodzi o to, że reżim leczenia optymalnie dostosowuje się do postępów pacjenta. Oczywiste jest, że może to być najlepsze dla pojedynczego pacjenta, ale może być również bardziej skuteczne w randomizowanych badaniach klinicznych.

gung - Przywróć Monikę
źródło
Dzięki @gung. Nie wiedziałem o tym algorytmie. Przeczytam o tym
Andy K,
2

Zadałem to samo pytanie na Quora

Oto odpowiedź

  • Alokacja środków dla różnych działów organizacji

  • Wybór najlepszych sportowców z grupy studentów, którzy mają ograniczony czas i arbitralny próg selekcji

  • Maksymalizacja zysków witryny podczas jednoczesnego testowania nowych funkcji (zamiast testów A / B) Możesz z nich korzystać w dowolnym momencie, aby zoptymalizować wyniki, gdy nie masz wystarczającej ilości danych do stworzenia rygorystycznego modelu statystycznego.

Andy K.
źródło