Wyobraź sobie następującą konfigurację: masz 2 monety, monetę A, która jest gwarantowana , oraz monetę B, która może, ale nie musi być uczciwa. Zostaniesz poproszony o wykonanie 100 rzutów monetą, a Twoim celem jest maksymalizacja liczby głów .
Wcześniejsze informacje na temat monety B były takie, że została ona odwrócona 3 razy i przyniosła 1 głowę. Jeśli twoja reguła decyzyjna polegała po prostu na porównaniu oczekiwanego prawdopodobieństwa głów 2 monet, rzuciłbyś monetę A 100 razy i skończyłbyś z nią. Jest to prawdą nawet przy zastosowaniu rozsądnych szacunków bayesowskich (średnich tylnych) prawdopodobieństw, ponieważ nie ma powodu, by sądzić, że moneta B daje więcej głów.
Co jednak, jeśli moneta B jest rzeczywiście stronnicza na korzyść głów? Z pewnością „potencjalne głowy”, które porzucisz kilkakrotnie przerzucając monetę B (a zatem uzyskując informacje o jej właściwościach statystycznych), byłyby w pewnym sensie cenne i dlatego wpłynęłyby na twoją decyzję. Jak matematycznie opisać tę „wartość informacji”?
Pytanie: Jak skonstruować matematycznie optymalną regułę decyzyjną w tym scenariuszu?
źródło
Odpowiedzi:
Wieloręki bandyta
Jest to szczególny przypadek problemu wielorękiego bandyty . Mówię o konkretnym przypadku, ponieważ generalnie nie znamy żadnego prawdopodobieństwa głów (w tym przypadku wiemy, że jedna z monet ma prawdopodobieństwo 0,5).
Podnoszony przez ciebie problem jest znany jako dylemat eksploracji kontra eksploatacji : czy badasz inne opcje, czy trzymasz się tego, co uważasz za najlepsze. Istnieje natychmiastowe optymalne rozwiązanie, zakładając, że znasz wszystkie prawdopodobieństwa : po prostu wybierz monetę o najwyższym prawdopodobieństwie wygranej. Problem, jak wspomniałeś, polega na tym, że nie jesteśmy pewni, jakie są prawdziwe prawdopodobieństwa .
Istnieje wiele literatury na ten temat i istnieje wiele deterministycznych algorytmów, ale skoro oznaczyłeś ten Bayesian, chciałbym opowiedzieć o moim osobistym ulubionym rozwiązaniu: Bayesian Bandit !
Rozwiązanie Baysian Bandit
Bayesowskie podejście do tego problemu jest bardzo naturalne. Interesuje nas odpowiedź „Jakie jest prawdopodobieństwo, że moneta X jest lepsza z tych dwóch?”.
A priori , zakładając, że nie zaobserwowaliśmy jeszcze żadnych rzutów monetą, nie mamy pojęcia, jakie może być prawdopodobieństwo głów monet B, oznaczenie tego nieznanego . Powinniśmy więc przypisać wcześniejszy rozkład równomierny temu nieznanemu prawdopodobieństwu. Alternatywnie, nasz poprzedni (i późniejszy) moneta A jest trywialnie skoncentrowany całkowicie na 1/2.pb
Jak już zauważyłeś, obserwujemy 2 ogony i 1 główkę z monety B, musimy zaktualizować nasz rozkład boczny. Zakładając jednolity przeor, a klapki są monetami Bernoulliego, naszym późniejszym jest . Porównując teraz rozkłady tylne lub A i B:B e t a ( 1 + 1 , 1 + 2 )
Znalezienie w przybliżeniu optymalnej strategii
Teraz, gdy mamy już tylnych, co robić? Interesuje nas odpowiedź „Jaka jest moneta prawdopodobieństwa B jest lepsza z dwóch” (Pamiętaj z naszej perspektywy bayesowskiej, chociaż istnieje wyraźna odpowiedź na to, która z nich jest lepsza, możemy mówić tylko z prawdopodobieństwem):
W przybliżeniu optymalnym rozwiązaniem jest wybór B z prawdopodobieństwem i A z prawdopodobieństwem . Ten schemat maksymalizuje oczekiwane zyski. można obliczyć numerycznie, ponieważ znamy rozkład tylny, ale interesujący sposób jest następujący: 1 - w B w BwB 1−wB wB
Ten schemat sam się aktualizuje. Kiedy obserwujemy wynik wybrania monety B, aktualizujemy nasz późniejszy o te nowe informacje i wybieramy ponownie. W ten sposób, jeśli moneta B jest naprawdę zła, wybieramy ją mniej, a moneta B jest naprawdę dobra, wybieramy ją częściej. Oczywiście jesteśmy Bayesianami, dlatego nigdy nie możemy być absolutnie pewni, że moneta B jest lepsza. Wybór probabilistycznie tego typu jest najbardziej naturalnym rozwiązaniem dylematu poszukiwawczo-wydobywczego.
Jest to szczególny przykład próbkowania Thompsona . Więcej informacji i fajne aplikacje do reklamy online, można znaleźć w pracy badawczej Google i pracy badawczej Yahoo . Uwielbiam te rzeczy!
źródło
Jest to prosty przypadek problemu wielorękiego bandyty . Jak zauważyłeś, chcesz zrównoważyć informacje, które gromadzisz, próbując nieznanej monety, gdy uważasz, że w krótkim okresie jest ona nieoptymalna, z wykorzystaniem posiadanej wiedzy.
W klasycznym problemie wielorękiego bandyty nie ma pewności co do prawdopodobieństwa dla obu monet. Jednak tutaj otrzymujesz informację, że znasz wartość monety A, więc po odwróceniu A nie otrzymasz żadnych informacji. W rzeczywistości równie dobrze możesz zignorować stochastyczną naturę A i założyć, że dostajesz płaską za wybór A. Oznacza to, że jeśli kiedykolwiek jest słuszne rzucić monetą A, to powinieneś ciągle przewracać A. po prostu chcę znaleźć optymalną regułę zatrzymania, kiedy należy zrezygnować z B. To zależy od wcześniejszego rozkładu parametru dla B i liczby prób. Przy większej liczbie prób odkrywanie ma większą wartość, więc testowałbyś B więcej.1/2
Ogólnie rzecz biorąc, myślę, że nie można uciec od problemu z dynamicznym programowaniem, chociaż mogą istnieć specjalne przypadki, w których można znaleźć i sprawdzić optymalną strategię w prostszy sposób.
Z mundurem przełożonym, tutaj powinieneś przestać:
W ramach tej strategii spodziewasz się zebrać głów.61.3299
Użyłem następującego kodu Mathematica do obliczenia akcji:
Dla porównania, heurystyka próbkowania Thompsona (którą Cam Davidson Pilon uznał za optymalną) daje średnio 60,2907 głów, niższą o 1,03915. Problem z próbkowaniem Thompsona polega na tym, że czasami pobiera próbki B, gdy masz wystarczającą ilość informacji, aby wiedzieć, że nie jest to dobry zakład, i często marnuje szanse na wcześniejsze pobranie próbki B, gdy informacja jest najbardziej warta. W tego rodzaju problemach prawie nigdy nie jesteś obojętny między opcjami i istnieje czysta optymalna strategia.
źródło