Dlaczego podczas nauki Q-Learning wykorzystuje chciwość epsilon?

W artykule DeepMind na temat Deep Q-Learning dla gier wideo Atari ( tutaj ) używają one chciwości epsilon do eksploracji podczas treningu. Oznacza to, że gdy akcja zostanie wybrana podczas treningu, zostanie wybrana albo jako akcja o najwyższej wartości q, albo akcja losowa. Wybór między tymi dwoma...