Dlaczego wybrano literę Q w Q-learningu?

17

Dlaczego litera Q została wybrana w imieniu Q-learningu?

Większość liter jest wybieranych jako skrót, na przykład oznacza πstrategię, a v oznacza wartość. Ale nie sądzę, że Q jest skrótem dowolnego słowa.

remis
źródło
1
W moim metaforycznym rozumieniu Q jest funkcją, która wiąże ilość (nazwij ją nagrodą, kosztem lub czymkolwiek innym, co jest optymalizowane) dla działania w danym stanie.
knk
1
@sycorax w ramce z oryginalnym pytaniem sugerowało zrozumienie Q-learningu i aby dać wyjaśnienie, pomogłoby to dodać kontekst. Program operacyjny zostałby utracony bez jakiegokolwiek wyjaśnienia bez ustalenia uziemienia.
knk
Czy metaforyczne pytanie Q = Ilość pomaga? Myślę o tym jak o kwantyfikacji działania w danych stanach
knk

Odpowiedzi:

35

Przykro mi, że rozczarowałem wszystkich, ale Q nic nie znaczy :)

Q-learning został zaproponowany przez Watkinsa w jego rozprawie doktorskiej w 1989 r., Patrz str. 96. Q w równaniu na tej stronie jest aktualizowane w określony sposób na każdym kroku. Q jest oczekiwanym zwrotem z działania w danym stanie, patrz definicja Q na str. 46. Zwrot ma sens ekonomiczny lub teorii gier, tzn. Zdyskontowanych nagród ważonych prawdopodobieństwem, a nie termin informatyczny, taki jak zwrot z funkcji.

Zauważ, że użył już P dla prawdopodobieństwa i R dla nagrody, więc chwycił Q za zwrot. Otóż ​​to. Wybór litery Q nie ma głębszego znaczenia.

Aksakal
źródło
3
Nie ma głębszego znaczenia, ale jest to znaczenie (że Q pasuje do P i R w alfabecie) i oznacza coś .
Sextus Empiricus
2
@MartijnWeterings To wcale nie ma znaczenia. Jest to czysto syntaktyczny wybór litery, bez żadnych rozważań semantycznych.
David Richerby
Jasne, może być kilka rozważań semantycznych (i może to być przedmiotem dyskusji, ponieważ różnice między literami łacińskimi lub greckimi, literami w różnych pozycjach alfabetu lub wielkimi i małymi literami mogą tworzyć szary obszar między składnią i semantyką). Uważam wybór Q za „znaczący”, ponieważ forma litery (która jest nieco dowolna) wyraża w pewnym stopniu znaczenie zmiennej / parametru. Znaczenie odnosi się do wyboru litery. Nie byłoby dobrego wyboru, gdyby wybrano u lub v, i i, j, k lub x, y, z lub . α,β,γ
Sextus Empiricus
@MartijnWeterings, Q również brzmi jak kolejka , co również przynosi nieco istotne konotacje
Aksakal
@Aksakal, mogło to wzmocnić użycie Q. Ale nie sądzę, że jest silny. Nie wiem dużo na ten temat, ale w krótkim przeglądzie tej tezy wydaje mi się bardzo prawdopodobne, że litera została użyta dla ilości takiej jak i R i P i lub i V i P i . W końcu nadano mu „jakąś nazwę”, jak „wartość akcji”, ale litery użyte w tej pracy wydają się znacznie bardziej przylegać do alfabetu. Na przykładQiRiPiiViPig h dla funkcji x y dla zmiennych V U dla funkcji wartości i jest przybliżona. itd.f g hx yV U
Sextus Empiricus
0

Powód, dla którego Q-Learning jest nazywany, ponieważ wykorzystuje wartości Q do formowania swoich oszacowań. Zwykłą zasadą uczenia się jest: i powinno być jasne, dlaczego nazywa się to Q-Learning.Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

Moim zdaniem jednak pytanie brzmi, dlaczego tak nazywa się Q-Learning. Chociaż nie wydaje się, aby odpowiedź była zadowalająca, ten link wspomina, że Andrew Barto , który jest jednym z założycieli Modern Reinforcement Learning, uważa, że oznacza Jakość, nazywaną tak, ponieważ charakteryzuje, jak dobry byłby wynik wyciągnięcia ręki być.Q

Ameet Deshpande
źródło
2
Przeczytaj tę tezę i powiedz mi, jak „jakość” ma sens w kontekście oczekiwanego zwrotu
Aksakal
Chociaż zgadzam się z tobą, teza została napisana po tym, jak Watkins skonsultował się z Andym w wielu sprawach. Andy mógł mieć lepszy pomysł, niż ci się wydaje.
Ameet Deshpande
Jakość nie istnieje nawet jako odrębna koncepcja w nauce. Oczywiście możesz użyć tego słowa w zwykłym znaczeniu z angielskiego. Z drugiej strony, oczekiwany zwrot jest bardzo dobrze zdefiniowany w teorii gier, nie ma potrzeby rozcieńczania go przez dołączanie niejasnych pojęć, takich jak jakość. Nie maksymalizujesz jakości, maksymalizujesz dyskontowane nagrody w ramach odpowiedniej miary prawdopodobieństwa. Jeśli chcesz być nieco szerszy, możesz zmaksymalizować użyteczność.
Aksakal