Po przeczytaniu osiągnięć Google Deepmind w grach Atari , próbuję zrozumieć q-learning i q-sieci, ale jestem trochę zdezorientowany. Zamieszanie powstaje w koncepcji współczynnika dyskontowego. Krótkie streszczenie tego, co rozumiem. Głęboka splotowa sieć neuronowa służy do oszacowania wartości optymalnej oczekiwanej wartości działania. Sieć musi zminimalizować funkcję utraty gdzie to Gdzie Q jest skumulowaną wartością wyniku r
Z matematycznego punktu widzenia jest współczynnikiem dyskonta i reprezentuje prawdopodobieństwo, aby osiągnąć stan ze stanu .s ′ s
Wydaje mi się, że sieć faktycznie uczy się przeskalowywać zgodnie z prawdziwą wartością , więc dlaczego nie pozwolić ?γ γ = 1