Mam prawdopodobnie naiwne pytanie dotyczące AlphaZero. Widziałem, jak opisywano to jako grę w „bardziej ludzkim” stylu niż inne komputery, ale cokolwiek robi, zyskuje dzięki temu około 100 punktów ELO. Kasparow i wielu innych twierdzili, że silny człowiek we współpracy z komputerem pokona silny komputer (być może około 100 ELO ??). Oczywistym pytaniem jest więc, jak AlphaZero porównałby się z kombinacją „centaur”?
Po obejrzeniu tylko kilku gier zauważam, że większość komputerów gra w szeroko otwarte gry, które maksymalizują ich własną mobilność, ale AlphaZero wydaje się bardzo zaniepokojony ograniczaniem mobilności przeciwników. W ludzkim graczu opisałbym to jako kwestię stylu, a nie człowieka.
Odpowiedzi:
Strona 5 w gazecie ma swoją odpowiedź:
„selektywnie” to słowo kluczowe. Co to znaczy? Użyjmy następującej pozycji w naszym przykładzie:
Jest to ostatnia gra wygrana przez Caruana w 2017 London Chess Classic. Biały biskup jest atakowany i wiesz, że musisz go przenieść. Ale gdzie?
Możliwości (nie tracąc kawałka):
Co myślała Caruana?
To ludzkie myślenie i „ludzki ruch”. Caruana nie rozważyła Bh4, Be3 i Bd2, ponieważ „wyglądały” źle. Skupiał się tylko i wyłącznie na ruchu Bc1.
Ludzie grają w szachy bardzo selektywnie , odrzucamy nierozsądne ruchy, ponieważ nie mamy czasu na równe zbadanie wszystkich możliwości.
To właśnie AlphaZero próbuje twierdzić w gazecie. Twierdzą, że ich algorytm, choć wolniejszy niż Sztokfisz, jest w stanie selektywnie wybierać lepiej ruchy niż Sztokfisz podczas wyszukiwania. Sztokfisz jest szybszy, ale marnuje czas na złe ruchy. AlphaZero jest wolniejszy, ale bardziej precyzyjny (jak to robił Caruana).
Na przykład AlphaZero może wydać 80% zasobów na Bc1 i 20% na wszystkie inne ruchy biskupa. Sztokfisz może dać 25% za każdy ruch (Bh4, Be3, Bd2, Bc1).
źródło
Większość silnych silników kładzie nacisk na głębokie spojrzenie, kosztem powierzchownej funkcji oceny. W artykule AlphaZero mówią, że Sztokfisz patrzy na 70 milionów pozycji na sekundę.
Ludzcy arcymistrzowie rzeczywiście patrzą na bardzo niewiele pozycji w porównaniu do silników, ale mają lepsze przeczucie, kto jest lepszy na danym stanowisku.
AlphaZero sprawdzał tylko 80 000 pozycji na sekundę, więc spędza znacznie więcej czasu w swojej funkcji oceny.
W tym sensie mieli na myśli „bardziej ludzkie”, nic więcej.
źródło
AlphaZero wydaje się już grać jak zwykły „centaur” -> GM korerespodence z asystą silnika.
Jako FM miałbym dużo więcej radości z grania w AlphaZero w porównaniu do zwykłego silnika.
Jednym z porównań byłoby to, że grałoby tak, jak Karpow z doskonałą taktyką. (Gra 9 AlphaZero odkłada kawałek na 15 ruchów, co jest bardzo podobne do Tal).
To nie tylko styl, AlphaZero sprawia wrażenie lepszego zrozumienia pozycji niż Sztokfisz.
AlphaZero nie cierpi również na Efekt Horyzontu, który do tej pory ucierpiały WSZYSTKIE silniki szachowe. Raz po raz jest w stanie poprawnie ocenić pozycję o więcej ruchów w dół niż Sztokfisz.
Oto przykład:
AlphaZero gra króla do centrum 16. Kxd2! w środkowej grze poprawnie oceniając, że czarne nie będą w stanie z tego skorzystać.
Potrafi poprawnie ocenić poświęcenie kawałka 30. Bxg6! podczas gdy zwykłe silniki nie są w stanie dostrzec, że zostały zgubione na kilka ruchów.
Istnieją inne przykłady, takie jak wymiana Ofiary w grze 3.
źródło
Łatwo jest wskoczyć na modę, mówiąc, że gra Alpha-Zero jest „bardziej” ludzka niż poprzednie programy szachowe, jak wskoczyć na przeciwny wóz i powiedzieć, że gra Alpha-Zero jest całkowicie „obca”. Nie jest jasne, że gra Alpha-zero jest „bardziej ludzka”, szczególnie biorąc pod uwagę naszą ludzką tendencję do antropomorfizmu.
Szachy jako walka (ludzkiego) umysłu
Ale czy w szachach ta tendencja jest prawdziwa? Magnus Carlsen powiedział kiedyś o tym, jak ogólnie „tradycyjnym” komputerom brakuje ludzkiej kreatywności, mówiąc:
Magnus Carlsen nie widział dowodów na ludzkie style gry w tradycyjnych komputerach szachowych. Sprawdźmy więc, czy ostatnie osiągnięcie Alpha-Zero odwróciło tę perspektywę i przesunęło nas w stronę czegoś bardziej przypominającego nas samych.
Twórcy algorytmu wskazują, że w przeciwieństwie do Sztokfiszy, która korzysta z algorytmu wyszukiwania Alpha-Beta, Alpha-Zero wykorzystuje algorytm wyszukiwania drzewa Monte-Carlo (MCTS), który przyjmuje jako dane wejściowe ważone parametry θ zbudowane z poprzednich wyników ~ Strona 3. Opanowanie szachów i Shogi przez samodzielną grę z ogólnym algorytmem uczenia się zbrojenia ).
Algorytm wcale nie wykazuje wyboru. W rzeczywistości angażuje się on w losowe, ale probabilistyczne wyszukiwanie Monty-Carlo, w którym możliwe ścieżki wyszukiwania są coraz bardziej naruszane przez poprzednie wyniki. Czy Alpha-zero zdecydowało się zoptymalizować swój styl gry w ten sposób, czy był to wybór jego programistów?
Początkowo miał do dyspozycji wszystkie ruchy, więc jego „styl” był całkowicie losowy. Jednak, ponieważ jego wyszukiwanie jest coraz bardziej i optymalnie ograniczone poprzednim sukcesem lub porażką, jego styl zmienia się w kierunku trybu, w którym programiści go związali. Czy to jednak „bardziej ludzkie”? Porównaj to z Magnusem Carlesenem, który czasami wybiera mniej optymalne ruchy, ponieważ są bardziej kreatywni :
Szachy jako walka umysłu (obcego)
Ludzie mogą wybrać kryteria, które kierują ich własnym stylem gry (na przykład często wybrałem impuls i błąd we własnym stylu). Gra w szachy i wiele zarówno zobaczyć Alpha-Zero jest iść jako zdecydowanie Alien . Nick Hynes, student w MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL), zauważa:
Podobnie GM Peter Heine Nielsen powiedział Chess.com :
Wydaje się, że większość reaguje na powstający styl gry Alpha-zero jako „grę obcych”, a nie jako „bardziej ludzką”.
źródło
To niezwykle interesujący czas na życie.
Komputery szachowe od lat 70. były algorytmami wyszukiwania opartymi na drzewie minimaks przy użyciu przycinania alfa-beta. Programy te stawały się coraz silniejsze zarówno z powodu postępu w szybkości komputera i równoległości, jak i ulepszeń w funkcji oceny heurystycznej wykorzystywanej do przycinania gałęzi i wybierania węzłów liści. Ale ludzie od dawna zauważyli, jak materialistyczna i nudna jest gra komputerowa, i wiele osób (w tym ja) uważało, że niemożliwe jest zakodowanie „ludzkiej” intuicji w oprogramowaniu.
Ale widziałeś te gry?
AlphaZero prezentuje niewiarygodnie piękną grę, w tym kilka przykładów poświęcenia materialnego dla długoterminowej przewagi pozycyjnej. Przypomina to niektóre z najpiękniejszych gier od ludzkich mistrzów, ale także z niezrównaną techniczną dokładnością. To pierwszy przykład, jaki widziałem w życiu czegoś, co jest generowane komputerowo i ma również głębokie piękno .
Roszczenie Centaura:
Słyszałem, jak Garry mówił to wiele razy, ale to po prostu nieprawda. A przynajmniej nie będzie to prawdą z AlphaZero na scenie.
Wyobraź to sobie: istnieje kawałek worka, który ma 10 000 odpowiednich kontynuacji, gdzie 5000 z nich jest czysto taktycznych (ale w większości niezwiązanych ze sobą) i kolejne 5000, które są w większości pozycyjne (ale w większości niezwiązane). Jak człowiek mógł przesiać te wszystkie odmiany bez popełniania błędu? Jeśli AlphaZero może teraz spojrzeć na te wysoce kreatywne ruchy, jaki wkład mógłby wnieść człowiek?
Ostatnia Granica:
Pozostało jeszcze jedno miejsce, w którym brutalne obliczenia nadal będą bić głębokie sieci neuronowe: gry końcowe. Nie ma intuicji, która pokonałaby podstawę stołu. Ale zakończenia wymagające bazy tabel (ponieważ drzewo wyszukiwania nie może sięgać wystarczająco głęboko, aby obliczyć właściwy ruch) są dość rzadkie. I możesz po prostu podłączyć podstawę do AlphaZero, ale to zniszczyłoby czystość silnika samouka, prawda?
źródło
Ponieważ ludzie nie mają możliwości głębokiego przeszukiwania, jak tradycyjne komputerowe szachy (fritz, sztokfisz i in.), Tworzą „zasady strategiczne” lub reguły kciuka (kontrola centrum, rozwój, bezpieczeństwo króla) oraz koncepcje lub sztuczki, które można zastosować w wielu różnych sytuacje na różne sposoby, takie jak poświęcenie, gawrony połączone, para biskupów, konkretne zakończenia, np. jak zaatakować króla wieżą i pionkiem.
Myślę, że alfa zero niezależnie opracowało wiele takich pojęć (percepcji i pojęć), a także nauczyło się wielu nowych - ponieważ jego wiedza nie była wymagana do budowania na ludzkich funkcjach oceny i silnym wyszukiwaniu minmax, które zawsze zakłada, że przeciwnik jest geniusz.
Oczywiście, takie zasady same w sobie są sprzeczne w niektórych sytuacjach, dlatego różne gry otwierające i pułapki są dokładnie badane - np. Nie rozwijaj królowej zbyt wcześnie.
Z drugiej strony ludzie zauważają również, że gdy stracisz jeden element (bez wymiany), osłabisz swoje siły, dlatego bardzo ostrożnie nie tracą elementu bez rekompensaty.
Myślę, że gra Alphazero uwolniła szachy komputerowe (i szachy ludzkie) od niewolniczego strachu przed utratą małego materiału i nadmiernego polegania na otwieraniu książek i wartości sztuk.
Gry Alphazero pokazują, że takie „strategiczne zasady”, jak kontrola centrum, rozwój, przestrzeń, inicjatywa są o wiele ważniejsze, jeśli przeciwnik jest niechlujny. Innymi słowy, „poświęcenie” nie jest tak naprawdę poświęceniem, lecz zamianą kawałka w celu uzyskania inicjatywy, pozycji, ukierunkowanego ruchu.
Alphago (nie zero) opierał się na ocenie człowieka, ale alphazero ustawia cały łańcuch oceny na „wyszukiwanie lub symulację” jako pojedynczy proces od końca do końca i oferuje zupełnie nowy sposób gry.
Jeśli się nad tym zastanowić, wielcy mistrzowie przeszłości, tacy jak Morphy, Fischer, Kasparow, zostali oklaskiwani za typowo tego rodzaju - intuicyjną - grę, w której nie ogranicza ich pisemna ocena, wykorzystując specjalne sytuacje, w których pojawić się. Myślę, że gry alfa zero mają taki czynnik „wow”.
Dlaczego sieci neuronowe. Podczas gdy programy komputerowe wykorzystujące reprezentację symboliczną i wyszukiwanie dyskretne mogą używać tylko „jednego” sposobu myślenia, sieci neuronowe mogą równolegle przetwarzać sytuacje z naprzemiennymi, sprzecznymi ocenami i przechodzić do bardziej wartościowego widoku w późniejszych warstwach.
źródło
Bardziej ludzki w tym sensie, że wykonywane przez niego ruchy mniej więcej pokrywają się z ludzkim podejściem: graj o długoterminową przewagę, ofiary pozycyjne, aktywność pionków. Widoczna zbieżność z ludzką wiedzą szachową i przyjętymi strategicznymi zasadami dopracowanymi na przestrzeni wieków (np. „Odkryła” wiele takich samych otworów). Jest to niezwykłe, biorąc pod uwagę fakt, że AlphaZero nie został zaszczepiony ludzką wiedzą szachową.
Ale podobieństwa kończą się tutaj. AlphaZero przenosi go na wyższy poziom i robi to lepiej, w sposób, w jaki ludzie nigdy nie pomyśleli. AlphaZero posiada zdolności „nadludzkie”, by zacytować artykuł: „AlphaZero osiągnął nadludzki poziom zabawy [...]” ( https://arxiv.org/pdf/1712.01815.pdf ). Ponadto nie ma słabości tkwiących u ludzi: problemy z koncentracją, strach, zmęczenie, uczucia, intuicja itp., Które ograniczają ludzi. A jego krzemowy mózg pozwala w razie potrzeby na kombinacje taktyczne przekraczające ludzkie możliwości.
źródło
Chcę podziękować wszystkim, którzy odpowiedzieli na to pytanie, często z subtelnością i wnikliwością. Wydaje mi się, że główna różnica w odpowiedziach polega na interpretacji słowa „człowiek”.
AlphaZero nie gra w ludzkie szachy w sensie niedopatrzeń i błędnych obliczeń, ale proces „myślenia” wydaje się w podwyższonej formie odpowiadać temu, co myślę o tym, co myślą najsilniejsi gracze. Dość szybko sporządzasz listę „ruchów kandydujących”, w które chciałbyś zagrać, a dla najsilniejszych graczy ta lista jest niesamowicie dokładna, nawet w ciągu jednej minuty gra w coś, co można uznać za rozsądnie rozsądne. Resztę czasu poświęca się pytaniu, które ruchy na tej liście naprawdę działają? Petrosian powiedział, że najbardziej poczuł się w formie, kiedy ruch, który ostatecznie wykonał, był tym, o którym po raz pierwszy pomyślał. Wszyscy wiemy, jak satysfakcjonujące jest to, że ruch, w którym najbardziej chcieliśmy grać, okazuje się taktyczny. Mogę odnosić się do algorytmu AlphaZero znacznie łatwiej niż do wyszukiwania AlphaBeta,
Najciekawsze wydaje się to, w jaki sposób maszyna była w stanie samodzielnie rozpoznać obiecujących kandydatów. Właśnie tam leży potencjał prawdziwej rewolucji. Zastanawiam się, czy jest to możliwe tylko w domenach takich jak szachy i gry, w których cele można jasno zdefiniować. Ale wydaje mi się uderzające, że AlphaZero wydaje się wyświetlać celową grę, ale Sztokfisz nie ma pojęcia, co się dzieje.
źródło
Z tego, jak rozumiem sieci neuronowe, prawdziwą zaletą A0 jest doskonała ocena pozycji na płytce. Ocena ta obejmuje zarówno krótkoterminową wiedzę taktyczną (która w pewnym sensie służy jako mnożnik liczby zbadanych pozycji), jak i lepszą ocenę wartości strategicznej.
źródło
Jedną rzeczą, która wydaje mi się, że cała dyskusja została pominięta, jest to, że A0 może grać w szachy, shogi i iść, wszystko bardzo dobrze i wszystko z samokształcenia. To jest o wiele bardziej ludzkie. Co więcej, w drodze ujawniło nowe pomysły najlepszym graczom (jak rozumiem). Inne silniki są bardzo specyficzne dla zadania, A0 wydaje się inaczej. Chciałbym zobaczyć, jak gra w szachy960.
źródło
Nie sądzę, żeby w Alphie było coś „ludzkiego”. Po prostu używał znacznie mocniejszego sprzętu i grał w szachy wyższej jakości. Znalezione przez niego dobre ruchy otwierające (na przykład fianchetto king side z Bg2) są w pełni spowodowane symulacją książki otwierającej. Koncepcje, które zrobiły na mnie wrażenie i które sformułowałem w „The Secret of Chess”: http://davidsmerdon.com/?p=1970 , których Alpha używa po raz pierwszy wśród najlepszych silników, to zaawansowane dłuższe łańcuchy, na przykład d4 -e5-f6 łańcuch, który przebijał cały pionek w grze poświęconej Bg6, oraz środkowi twórcy zacofania, jak widać w grach francuskiej obrony między oboma silnikami. Obie koncepcje polegają na poszukiwaniu dogłębnych głębi i zapewne tutaj Alfie pomógł ogromny sprzęt. W przeciwnym razie nie widzę nic ludzkiego w tej grze. Trzeba przyznać, że wiele gier
źródło