Czy gra DeepMind DQN Atari uczyła się jednocześnie?

9

DeepMind twierdzi, że ich głęboka sieć Q (DQN) była w stanie stale dostosowywać swoje zachowanie podczas nauki gry w 49 gier Atari.

Po nauczeniu się wszystkich gier z tą samą siecią neuronową agent był w stanie grać wszystkie jednocześnie na „nadludzkich” poziomach (ilekroć był losowo prezentowany w jednej z gier), czy też może być dobry tylko w jednej grze na raz, ponieważ zmiana wymagało ponownego uczenia się?

Dion
źródło
„Po nauczeniu się wszystkich gier z tą samą siecią neuronową”. Czy to oznacza tę samą architekturę NN LUB tę samą architekturę i pojedynczy zestaw wag?
Ankur,
@Ankur tak naprawdę nie jestem pewien - to moje (ograniczone) zrozumienie, że użyli tej samej architektury i nie zresetowali wag między grami.
Dion,

Odpowiedzi:

2

Przełączanie wymagało ponownego uczenia się.

Pamiętaj również, że :

Używamy tej samej architektury sieci, algorytmu uczenia się i ustawień hiperparametrów we wszystkich siedmiu grach, co pokazuje, że nasze podejście jest wystarczająco solidne, aby pracować na różnych grach bez uwzględniania informacji specyficznych dla gry. Podczas gdy ocenialiśmy naszych agentów w rzeczywistych i niezmodyfikowanych grach, wprowadziliśmy jedną zmianę w strukturze nagród w grach tylko podczas treningu.

i

sieć przewyższyła wszystkie poprzednie algorytmy RL w sześciu z siedmiu gier, które próbowaliśmy, i przewyższyła eksperta ludzkiego gracza w trzech z nich.

Franck Dernoncourt
źródło
1

Przełączanie wymaga ponownego uczenia się, sieć nie miała jednego zestawu wag, które pozwoliłyby jej dobrze grać we wszystkie gry. Wynika to z katastrofalnego problemu zapominania.

Jednak ostatnie prace zostały wykonane w celu rozwiązania tego problemu:

„Przezwyciężanie katastrofalnego zapominania w sieciach neuronowych”, 2016

Papier: https://arxiv.org/pdf/1612.00796v1.pdf

Nic
źródło