Co to jest „nowatorski algorytm uczenia się wzmocnienia” w AlphaGo Zero?

10

Z jakiegoś powodu AlphaGo Zero nie zyskuje tyle rozgłosu, co oryginalne AlphaGo, pomimo jego niesamowitych rezultatów. Zaczynając od zera, pokonał już AlphaGo Master i przeszedł wiele innych testów. Co jeszcze bardziej niewiarygodne, zrobiono to w 40 dni. Google określa go jako „prawdopodobnie najlepszy odtwarzacz Go na świecie” .

DeepMind twierdzi, że jest to „nowatorska forma uczenia się przez wzmocnienie” - czy ta technika jest naprawdę nowa? A może były inne czasy, kiedy ta technika była używana - a jeśli tak, jakie były jej wyniki? Myślę, że wymagania, o których mówię, to 1) brak interwencji człowieka i 2) brak historycznej gry, ale są one elastyczne.

To wydaje się być podobne pytanie, ale wszystkie odpowiedzi wydają się zaczynać od założenia, że ​​AlphaGo Zero jest pierwszym tego rodzaju.

Dubukay
źródło
Uczenie się przez wzmocnienie nie jest niczym nowym. Jakie techniki Google twierdzi, że są one pierwsze?
HelloWorld,
Na stronie z linkiem znajduje się cytat, aw artykule używają wyrażenia „Sieć neuronowa w AlphaGo Zero jest szkolona z gier polegających na samodzielnej grze dzięki nowemu algorytmowi uczenia się wzmacniającego”.
Dubukay,
1
Gra własna na pewno nie jest nowa. Istniał przed Google. Algorytm zawiera szczegóły, które sprawiają, że są „nowatorskie”. Może ktoś inny może odpowiedzieć.
HelloWorld,
2
Rozumiem to - chyba próbuję zrozumieć, co sprawiło, że ich podejście było tak niewiarygodnie dobre i czy to jest coś, czego powinniśmy się spodziewać w innych obszarach. Czy to nowa filozofia czy po prostu naprawdę dobry kod?
Dubukay,
1
Znalazłem tutaj kopię artykułu: nature.com/articles/… (zawiera token dostępu do udostępniania, który pochodzi z blogu, który go łączy, więc jest to prawnie udostępniony AFAICS). Nawet po przeczytaniu opisu ciężko jest wyłowić prawdziwą nowość - wszystkie indywidualne pomysły wydają się być wcześniejszymi technikami RL / gier, może to być konkretna kombinacja tych nowości
Neil Slater,

Odpowiedzi:

6

Artykuł AlphaGo Zero z Nature , „Opanowanie gry bez ludzkiej wiedzy”, głosi cztery główne różnice w stosunku do wcześniejszej wersji:

  1. Tylko samokształcenie (nie trenowane w grach ludzkich)
  2. Używanie tylko planszy i kamieni jako danych wejściowych (brak funkcji odręcznych).
  3. Korzystanie z jednej sieci neuronowej dla zasad i wartości
  4. Nowy algorytm wyszukiwania drzewa, który wykorzystuje tę połączoną sieć zasad / wartości, aby wskazać, gdzie szukać dobrych ruchów.

Punkty (1) i (2) nie są nowe w uczeniu się zbrojenia, ale poprawiają poprzednie oprogramowanie AlphaGo , jak podano w komentarzach do twojego pytania. Oznacza to po prostu, że teraz używają czystej nauki zbrojenia, zaczynając od losowo zainicjowanych wag. Jest to możliwe dzięki lepszym, szybszym algorytmom uczenia się.

Ich twierdzenie brzmi: „Naszym głównym celem jest wykazanie, że nadludzką wydajność można osiągnąć bez wiedzy w dziedzinie ludzkiej”. (str. 22).

Punkty (3) i (4) są nowe w tym sensie, że ich algorytm jest prostszy i bardziej ogólny niż poprzednie podejście. Wspominają również, że jest to poprawa w stosunku do poprzedniej pracy Guo i in.

Ujednolicenie sieci zasad / wartości (3) umożliwia im wdrożenie bardziej wydajnego wariantu wyszukiwania drzewa Monte-Carlo w celu wyszukiwania dobrych ruchów i jednoczesnego korzystania z drzewa wyszukiwania w celu szybszego trenowania sieci (4). To jest bardzo potężne.

Ponadto opisują szereg interesujących szczegółów implementacji, takich jak grupowanie i ponowne wykorzystywanie struktur danych w celu optymalizacji wyszukiwania nowych ruchów.

Skutkuje to tym, że wymaga mniejszej mocy obliczeniowej, działając na 4 TPU zamiast 176 GPU i 48 TPU w poprzednich wersjach oprogramowania.

To zdecydowanie czyni go „nowatorskim” w kontekście oprogramowania Go. Uważam, że (3) i (4) są również „nowatorskie” w szerszym kontekście i będą miały zastosowanie w innych dziedzinach uczenia się przez wzmocnienie, takich jak np . Robotyka.

mjul
źródło
Myślę, że (4) nawiązuje do wykładów Davida Silvera - wykład 10 na temat klasycznych gier - w wielu istniejących przypadkach MCTS kieruje się już wyszkolonym ML. W przypadku AlphaGo Zero jest to odwracane, a wynik MCTS służy do ustalania celów uczenia się dla ML. Jednak zastanawiam się, czy to naprawdę „powieść”, to możliwość robienia tego, o czym wspomniano w wykładzie. . .
Neil Slater