W jakich rzeczywistych sytuacjach możemy zastosować algorytm wielorękiego bandyty?

15

Wieloręcy bandyci działają dobrze w sytuacjach, w których masz wybór i nie jesteś pewien, który z nich zmaksymalizuje twoje zdrowie. Możesz użyć algorytmu do niektórych rzeczywistych sytuacji. Na przykład nauka może być dobrą dziedziną:

Jeśli dziecko uczy się stolarstwa i jest w tym kiepski, algorytm poinformuje go, że prawdopodobnie powinien przejść dalej. Jeśli jest w tym dobry, algorytm powie mu, aby kontynuował naukę tego pola.

Randki to także dobre pole:

Jesteś mężczyzną, który wkłada wiele wysiłku w ściganie kobiety. Jednak twoje wysiłki są zdecydowanie niepożądane. Algorytm powinien „nieznacznie” (lub zdecydowanie) skłonić cię do przejścia dalej.

Do jakich innych realnych sytuacji możemy użyć algorytmu wielorękiego bandyty?

_{PS: Jeśli pytanie jest zbyt ogólne, zostaw komentarz. Jeśli dojdzie do konsensusu, usunę moje pytanie.}

algorithms reinforcement-learning multiarmed-bandit Andy K.
źródło

3

Biorąc pod uwagę, że istnieją 3 głosowane odpowiedzi (jak dotąd), nie sądzę, aby było to zbyt szerokie, aby można było na nie odpowiedzieć.

gung - Przywróć Monikę

@gung Mam więcej głosów pozytywnych, ale nie mają one wpływu na mój wynik. Dlaczego?

Andy K,

5

To dlatego, że ten wątek to wiki społeczności (CW), @AndyK. Gdy wątek ma charakter CW, ludzie nie uzyskują reputacji na podstawie opinii pozytywnych (ani nie tracą jej na podstawie opinii negatywnych). Jednak normalnie zdobywałbyś odznaki. Pytania takie jak te, które wymagają list rzeczy i gdzie nie ma jednej, wyraźnej „poprawnej” odpowiedzi, powinny być nie na temat na stronach SE. Naszym kompromisem (uważam, że robią to również inne strony) jest umożliwienie zadawania takich pytań w poszczególnych przypadkach, ale sprawienie, by były CW.

gung - Przywróć Monikę

wystarczy @gung

Andy K

1

przyjęcia na studia. Wybór wskaźników do wyboru biorców narządów od dawcy.

EngrStudent - Przywróć Monikę

8

Kiedy grasz w oryginalne gry Pokemon (czerwony lub niebieski i żółty) i docierasz do miasta Celadon, automaty do gry w rakiety drużynowe mają różne szanse. Multi-Arm Bandit właśnie tam, jeśli chcesz zoptymalizować uzyskanie tego Porygona naprawdę szybko.

Z całą powagą ludzie mówią o problemie z wyborem zmiennych dostrajających w uczeniu maszynowym. Zwłaszcza jeśli masz wiele zmiennych, rozmawia się o eksploracji vs wykorzystaniu. Zobacz, jak Spearmint lub nawet nowy artykuł w tym temacie, który wykorzystuje super prosty algorytm do wybierania parametrów strojenia (i znacznie przewyższa inne techniki strojenia zmiennych)

www3
źródło

6

Można je stosować w warunkach leczenia biomedycznego / projektowania badań. Na przykład uważam, że algorytmy q-learningu są używane w testach sekwencyjnych, wielokrotnych przydziałach i próbach losowych ( próby SMART ). Luźno chodzi o to, że reżim leczenia optymalnie dostosowuje się do postępów pacjenta. Oczywiste jest, że może to być najlepsze dla pojedynczego pacjenta, ale może być również bardziej skuteczne w randomizowanych badaniach klinicznych.

gung - Przywróć Monikę
źródło

Dzięki @gung. Nie wiedziałem o tym algorytmie. Przeczytam o tym

Andy K,

6

Są one wykorzystywane w testach A / B reklam internetowych, w których różne reklamy są wyświetlane różnym użytkownikom i na podstawie wyników podejmowane są decyzje dotyczące tego, jakie reklamy będą wyświetlane w przyszłości. Jest to opisane w ładnym artykule przez badacza Google Stevena L. Scotta .

Tim
źródło

Dzięki @Tim. Przeczytałem ten vwo.com/blog/multi-armed-bandit-alameterm

Andy K

2

Zadałem to samo pytanie na Quora

Oto odpowiedź

Alokacja środków dla różnych działów organizacji

Wybór najlepszych sportowców z grupy studentów, którzy mają ograniczony czas i arbitralny próg selekcji

Maksymalizacja zysków witryny podczas jednoczesnego testowania nowych funkcji (zamiast testów A / B) Możesz z nich korzystać w dowolnym momencie, aby zoptymalizować wyniki, gdy nie masz wystarczającej ilości danych do stworzenia rygorystycznego modelu statystycznego.

Andy K.
źródło

W jakich rzeczywistych sytuacjach możemy zastosować algorytm wielorękiego bandyty?

Odpowiedzi: