Nie jestem specjalistą w tej dziedzinie, a moje pytanie jest prawdopodobnie bardzo naiwne. Wynika to z eseju, który ma na celu zrozumienie mocy i ograniczeń uczenia się przez wzmacnianie, jakie zastosowano w programie AlphaGo.
Program AlphaGo został zbudowany przy użyciu m.in. program przeciwko sobie wiele razy.
Teraz zastanawiam się, co by się stało, gdybyśmy próbowali zbudować taki program bez ludzkiej bazy danych, tj. Zaczynając od podstawowego programu Go, znając reguły i jakąś metodę eksploracji drzew, i pozwalając grać przeciwko sobie, aby poprawić swoją sieć neuronową. Czy po wielu grach przeciwko sobie dojdziemy do programu, który może konkurować z najlepszymi ludzkimi graczami? A jeśli tak, to ile gier (rzędu wielkości) byłoby do tego potrzebnych? Lub przeciwnie, czy taki program zbiegnie się w kierunku znacznie słabszego gracza?
Zakładam, że eksperyment nie został przeprowadzony, ponieważ AlphaGo jest tak nowy. Jednak odpowiedź może być oczywista dla specjalisty. W przeciwnym razie zainteresują mnie wszelkie wykształcone przypuszczenia.
Można również zadać to samo pytanie dla „prostszych” gier. Jeśli zastosujemy z grubsza te same techniki uczenia się zbrojenia, które zastosowano w AlphaGo, ale bez ludzkiej bazy danych, w przypadku programu szachowego, czy w końcu uzyskalibyśmy program zdolny pokonać najlepszego człowieka? A jeśli tak, to jak szybko? Czy zostało to wypróbowane? A jeśli nie w szachach, co z warcabami, a nawet prostszymi grami?
Wielkie dzięki.
To samo pytanie zostało zadane autorowi artykułu AlphaGo, a jego odpowiedź brzmiała: nie wiemy, co by się stało, gdyby AlphaGo uczył się od zera (nie przetestowali go).
Biorąc jednak pod uwagę złożoność gry, trudne byłoby wytrenowanie algorytmu od zera bez wcześniejszej wiedzy. Dlatego na początku rozsądne jest rozpoczęcie budowy takiego systemu poprzez uaktualnienie go do poziomu mistrzowskiego z wykorzystaniem wiedzy zdobytej przez ludzi.
Warto zauważyć, że chociaż człowiek porusza tendencję do selekcji akcji w drzewnych węzłach (stanach), ten uprzedni ma czynnik rozpadu. Oznacza to, że zwiększona liczba odwiedzin do określonego stanu, zmniejsza siłę wcześniejszych, aby zachęcić algorytm do eksploracji.
Obecny poziom Mastery of AlphaGo nie jest znany, jak blisko lub jak daleko jest do ludzkiego stylu gry (w turnieju wykonał jeden ruch, który miał prawie zerowe prawdopodobieństwo wykonania! - ale równie dobrze wykonał kilka naprawdę złych ruchów) . Być może na wszystkie te pytania należy odpowiedzieć, wdrażając odpowiednie algorytmy testowe.
Muszę zedytować swoją odpowiedź, ponieważ najnowszy artykuł DeepMind odpowiada na twoje pytanie. Było wiele ulepszeń, które wyszły z całego poprzedniego doświadczenia z pierwszą wersją AlphaGo i naprawdę warto ją przeczytać.
źródło
O ile rozumiem algorytm AlphaGo, jest on oparty na prostym frameworku uczenia się zbrojenia (RL), używając wyszukiwania drzewa Monte-Carlo, aby wybrać najlepsze działania. Co więcej, stany i działania objęte algorytmem RL nie są po prostu całą możliwą konfiguracją gry (Go ma ogromną złożoność), ale są oparte na sieci polityk i sieci wartości, wyciągniętych z prawdziwych gier, a następnie poprawione przez granie w gry AlphaGo vs AlphaGo.
Możemy się zastanawiać, czy trening z prawdziwych gier to tylko skrót do oszczędzania czasu, czy też niezbędna opcja, aby uzyskać taką wydajność. Chyba nikt tak naprawdę nie zna odpowiedzi, ale moglibyśmy podać pewne założenia. Po pierwsze, ludzka zdolność do promowania dobrych ruchów wynika ze znacznie bardziej złożonej inteligencji niż zwykła sieć neuronowa. W przypadku gier planszowych jest to połączenie pamięci, doświadczenia, logiki i uczuć. W tym kierunku nie jestem pewien, czy algorytm AlphaGo mógłby zbudować taki model bez wyraźnego zbadania ogromnego odsetka całej konfiguracji gry Go (co jest praktycznie niemożliwe). Obecne badania koncentrują się na budowaniu bardziej złożonej reprezentacji takiej gry, takiej jak relacyjne RL lub indukcyjne uczenie się logiki. Następnie w przypadku prostszych gier (może być tak w przypadku szachów, ale nie ma pewności),
To wciąż tylko opinia. Ale jestem pewien, że klucz do odpowiedzi na twoje pytanie znajduje się w podejściu RL, które jest wciąż dość proste pod względem wiedzy. Naprawdę nie jesteśmy w stanie zidentyfikować, co sprawia, że jesteśmy w stanie poradzić sobie z tymi grami, a najlepszym sposobem, jaki do tej pory udało nam się pokonać człowieka, jest z grubsza uczyć się od niego i ulepszać (nieco) wyuczony model za pomocą ogromnych obliczeń.
źródło
Konkurencyjna gra bez ludzkiej bazy danych jest nawet możliwa w skomplikowanych, częściowo obserwowanych środowiskach. OpenAI koncentruje się na tym kierunku. Zgodnie z tym artykułem :
To ważny powód sukcesu gry własnej.
OpenAI osiągnął nadludzkie wyniki dla Dota 2 1v1, 11 sierpnia 2017 roku pokonał Dendi 2-0 na standardowych zasadach turniejowych.
Nie tylko gry, ten kierunek jest również obiecujący dla zadań robotyki.
W następnym kroku rozszerzają metodę uczenia się współpracy, rywalizacji i komunikacji , a nie tylko grania w samodzielną grę.
źródło