Dlaczego nauka głębokiego wzmacniania jest niestabilna?

13

W artykule DeepMind z 2015 r. Na temat uczenia się głębokiego wzmacniania stwierdzono, że „poprzednie próby połączenia RL z sieciami neuronowymi były w dużej mierze nieudane z powodu niestabilnego uczenia się”. Następnie w artykule wymieniono niektóre przyczyny tego zjawiska, oparte na korelacjach między obserwacjami.

Czy ktoś mógłby wyjaśnić, co to znaczy? Czy jest to forma nadmiernego dopasowania, w której sieć neuronowa uczy się pewnej struktury, która jest obecna w treningu, ale może nie być obecna podczas testów? Czy to oznacza coś jeszcze?


Artykuł można znaleźć: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

A sekcja, którą próbuję zrozumieć, to:

Uczenie się wzmocnienia jest znane jako niestabilne lub nawet rozbieżne, gdy aproksymator funkcji nieliniowej, taki jak sieć neuronowa, jest używany do reprezentowania funkcji wartości akcji (znanej również jako Q). Ta niestabilność ma kilka przyczyn: korelacje występujące w sekwencji obserwacji, fakt, że małe aktualizacje Q mogą znacząco zmienić politykę, a tym samym zmienić rozkład danych, a także korelacje między wartościami akcji a wartościami docelowymi.

Rozwiązujemy te niestabilności za pomocą nowatorskiego wariantu Q-learningu, który wykorzystuje dwa kluczowe pomysły. Po pierwsze, użyliśmy inspirowanego biologicznie mechanizmu zwanego odtwarzaniem doświadczeń, który losowo dobiera dane, usuwając w ten sposób korelacje w sekwencji obserwacji i wygładzając zmiany w rozkładzie danych. Po drugie, zastosowaliśmy iteracyjną aktualizację, która dostosowuje wartości akcji (Q) do wartości docelowych, które są okresowo aktualizowane, zmniejszając w ten sposób korelacje z celem.

Karnivaurus
źródło
Aby upewnić się, że trenujesz swojego agenta w zakresie nieskorelowanych danych, nie powinieneś aktualizować pamięci agenta na każdym kroku, napraw krok przechowywania, aby dokonać dekorelacji danych.
narjes karmani

Odpowiedzi:

11

Główny problem polega na tym, że podobnie jak w wielu innych dziedzinach, szkolenie DNN może być trudne. Tutaj jednym problemem jest korelacja danych wejściowych: jeśli myślisz o grze wideo (faktycznie używają jej do testowania swoich algorytmów), możesz sobie wyobrazić, że zrzuty ekranu robione jeden po drugim są wysoce skorelowane: gra ewoluuje „w sposób ciągły”. Dla NN może to stanowić problem: wykonanie wielu iteracji spadku gradientu na podobnych i skorelowanych danych wejściowych może doprowadzić do ich przekroczenia i / lub spaść do lokalnego minimum. Dlatego używają powtórki doświadczenia: przechowują serię „migawek” gry, a następnie tasują je i wybierają kilka kroków później, aby rozpocząć szkolenie. W ten sposób dane nie są już skorelowane. Następnie zauważają, w jaki sposób podczas szkolenia wartości Q (przewidywane przez NN) mogą zmienić bieżącą politykę,

Dante
źródło
Przez „przetasowane” dane masz na myśli przypadkowe doświadczenia poza sekwencją próbkowane w mini-partii? W jaki sposób odnosi się to do „obniżonej przyszłej nagrody”, która wydaje się sugerować doświadczenia w sekwencji?
isobretatel