Z jakiegoś powodu AlphaGo Zero nie zyskuje tyle rozgłosu, co oryginalne AlphaGo, pomimo jego niesamowitych rezultatów. Zaczynając od zera, pokonał już AlphaGo Master i przeszedł wiele innych testów. Co jeszcze bardziej niewiarygodne, zrobiono to w 40 dni. Google określa go jako „prawdopodobnie najlepszy odtwarzacz Go na świecie” .
DeepMind twierdzi, że jest to „nowatorska forma uczenia się przez wzmocnienie” - czy ta technika jest naprawdę nowa? A może były inne czasy, kiedy ta technika była używana - a jeśli tak, jakie były jej wyniki? Myślę, że wymagania, o których mówię, to 1) brak interwencji człowieka i 2) brak historycznej gry, ale są one elastyczne.
To wydaje się być podobne pytanie, ale wszystkie odpowiedzi wydają się zaczynać od założenia, że AlphaGo Zero jest pierwszym tego rodzaju.
źródło
Odpowiedzi:
Artykuł AlphaGo Zero z Nature , „Opanowanie gry bez ludzkiej wiedzy”, głosi cztery główne różnice w stosunku do wcześniejszej wersji:
Punkty (1) i (2) nie są nowe w uczeniu się zbrojenia, ale poprawiają poprzednie oprogramowanie AlphaGo , jak podano w komentarzach do twojego pytania. Oznacza to po prostu, że teraz używają czystej nauki zbrojenia, zaczynając od losowo zainicjowanych wag. Jest to możliwe dzięki lepszym, szybszym algorytmom uczenia się.
Ich twierdzenie brzmi: „Naszym głównym celem jest wykazanie, że nadludzką wydajność można osiągnąć bez wiedzy w dziedzinie ludzkiej”. (str. 22).
Punkty (3) i (4) są nowe w tym sensie, że ich algorytm jest prostszy i bardziej ogólny niż poprzednie podejście. Wspominają również, że jest to poprawa w stosunku do poprzedniej pracy Guo i in.
Ujednolicenie sieci zasad / wartości (3) umożliwia im wdrożenie bardziej wydajnego wariantu wyszukiwania drzewa Monte-Carlo w celu wyszukiwania dobrych ruchów i jednoczesnego korzystania z drzewa wyszukiwania w celu szybszego trenowania sieci (4). To jest bardzo potężne.
Ponadto opisują szereg interesujących szczegółów implementacji, takich jak grupowanie i ponowne wykorzystywanie struktur danych w celu optymalizacji wyszukiwania nowych ruchów.
Skutkuje to tym, że wymaga mniejszej mocy obliczeniowej, działając na 4 TPU zamiast 176 GPU i 48 TPU w poprzednich wersjach oprogramowania.
To zdecydowanie czyni go „nowatorskim” w kontekście oprogramowania Go. Uważam, że (3) i (4) są również „nowatorskie” w szerszym kontekście i będą miały zastosowanie w innych dziedzinach uczenia się przez wzmocnienie, takich jak np . Robotyka.
źródło