Dlaczego Q-learning nie jest zbieżny podczas korzystania z aproksymacji funkcji?

Tabelaryczny algorytm uczenia Q gwarantuje znalezienie optymalnego QQQ funkcjonować, Q∗Q∗Q^*, pod warunkiem spełnienia następujących warunków (warunki Robbins-Monro ) dotyczących wskaźnika uczenia się ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t}...