Oceny komputerowe: czy są godne zaufania?

14

Fritz 12 z Rybką dał mojemu przyjacielowi ocenę +3 dla białych w tej pozycji w końcowej fazie gry ,

Biały, aby się poruszać

który okazał się remisem. Ale słyszałem, że +3 z komputera oznacza gwarantowaną wygraną przy doskonałej grze. Czy właśnie usłyszałem źle? Jak należy interpretować ogólnie oceny komputerowe? Co w ogóle oznaczają zalety otwarcia <.5?

analysis engines software statistics evaluation chubbycantorset
źródło

3

Zakwestionowałbym komentarz „gwarantowana wygrana”. Numer oceny jest wskaźnikiem heurystycznym, w zasadzie „odczuciem”, jakie komputer ma dla danej pozycji. Gry końcowe mogą mieć „zaskakujące” wyniki i jeśli komputer nie zostanie zaprogramowany do wykrywania wszystkich możliwych wzorców (lub może obliczyć całą drogę), niektóre z nich przegapią. Aby spojrzeć na to z innej strony, gdyby +3 było naprawdę gwarantowane, nie byłoby to +3, byłoby + nieskończoność.

Daniel B

Dla przypomnienia sprawdziłem to z 7-częściowymi stolikami Lichess i rzeczywiście jest to remis.

PhishMaster,

8

Jest tu kilka rzeczy.

Po pierwsze, każdy program będzie miał swój własny sposób oceny pozycji, więc wyników nie będzie można bezpośrednio porównać. Na przykład ostatnio prowadziłem StockFish przeciwko Rybce i stwierdziłem, że wyniki Sztokfizy były około dwukrotnie wyższe niż w Rybce. Byłem tym zaskoczony, ale jest całkiem jasne, że wynik 1 nie zawsze oznacza „1 pionek”. Myślę, że powinniśmy spojrzeć na to, jak zmienia się wynik. Inną ciekawostką, którą widziałem wczoraj (przypadkowo odpowiadając na jedno z pozostałych twoich pytań), było to, że algorytm oceny Sztokfiszka nie lubi liczb nieparzystych. W rzeczywistości większość wyników to wielokrotności 0,04. Biorąc pod uwagę, że wielkość tej wartości jest dowolna, nie zakładam, że jakaś pewna wartość oznacza „pewną wygraną”, chyba że maszyna twierdzi, że znalazła partnera.

Po drugie, utworzono podstawy tabel końcowych gier, ponieważ rozwiązywanie gier końcowych wymaga dużej ilości wyszukiwania. Komputery grające z prędkością turniejową po prostu nie radzą sobie dobrze. Kilka dni temu pracowałem nad inną grą i na tej stronie ogłosiłem, że jedna strona ma przewagę. Ed wykorzystał podstawę tabeli, aby pokazać, że w tej pozycji nie pozostała tajemnica - została teoretycznie narysowana. Oczywiście istnieje ogromna różnica między dobieraniem z idealną grą a rysowaniem; gracze muszą znaleźć odpowiednie ruchy.

Mała wartość ogólnie przyznawana Białemu we wczesnych etapach gry w gruncie rzeczy oznacza, że Biały może domagać się cenniejszych nieruchomości. Na przykład w ruchu 1 białe mogą przejąć e4 i zaatakować e5 i f5. Czarny może przeciwdziałać. Ale wtedy białe mogą grać w Nc3 i atakować / wzmacniać a4, b5, d5 i e4. Ale czarne mogą przeciwdziałać. To znaczy bardzo mało.

Na koniec, aby odpowiedzieć na pytanie w temacie - oceny są bardzo wiarygodne, ponieważ opierają się na twardych faktach i imponującej głębokości wyszukiwania. Oczywiście maszyny nie są niezawodne. Ale my b-gracze musimy pamiętać, że Sztokfisz (lub Rybka) grają w siłę GM na skromnym sprzęcie. Na najlepszym wspólnym sprzęcie oceniają swoje oceny na FIDE 3200. Jest to tak wysoka, że tylko najlepsi ludzie mają niewielką szansę na utratę.

Zastanów się, co to oznacza; Ja (USCF 1650-ish) nie mam szans w stosunku do osoby (np. USCF 2050), która nie ma szans w stosunku do osoby (np. USCF 2450), która nie ma szans w stosunku do osoby (np. USCF 2850), która ma odłamek z przypadkiem przeciwko najwyższego lotu komercyjnego programu (FIDE 3200).

Tak więc, gdy Sztokfisz twierdzi, że jeden ruch jest lepszy od drugiego, zwykle biorę to za wartość nominalną. Kiedy podpinam podstawy stołu do gry końcowej, ta rzecz zacznie ogłaszać znajomych w latach 30., lol.

Tony Ennis
źródło

1

Bardzo miła odpowiedź. Zawsze myślałem, że ocena 1 oznacza wartość 1 pionka materiału. Ponadto, chesstempo mówi, że najlepszym ruchem w swoich problemach są te, które wygrywają materiał o wartości co najmniej 2 pionków, więc uznałem, że ocena silnika +2 lub więcej wygrywa niezależnie od etapu gry. Stwierdziłem jednak, że analiza sztokfisza była wcześniej wadliwa i widziałem, jak nie ocenia ona właściwie gier końcowych. Czy wiesz, gdzie mogę znaleźć bazę gier końcowych?

chubbycantorset

Oto opublikowany online 6-osobowy tablebase Ed: k4it.de/index.php?topic=egtb&lang=en

Tony Ennis

+1 dla „Nie zakładam, że jakaś określona wartość oznacza„ pewną wygraną ”, chyba że maszyna twierdzi, że znalazła partnera.”

ferit

14

Różne silniki mają różne „skale” do ich oceny numerycznej. Na przykład, w typowej pozycji w środkowej fazie gry z dużą ilością pozostałej gry, kiedy Houdini mówi +2.00 lub lepiej, jest bardzo prawdopodobne, że białe mają przewagę wygraną (chociaż nawet tutaj podałem kwalifikacje z jakiegoś powodu). Ale zastanów się: można zmodyfikować kod źródłowy Houdini i podwoić wartości bezwzględne wszystkich liczb biorących udział w ocenach; otrzymuje się silnik o identycznej sile, który wytwarza identyczną grę, ale teraz +4,00 oznacza, co oznaczało +2,00. To pokazuje, że nie należy oczekiwać jednolitego progu liczbowego dla wszystkich silników, który zazwyczaj oznacza przewagę wygrywającą.

Co więcej, ważne jest, aby zrozumieć, że numeryczna ocena silnika pozycji (w przeciwieństwie do jawnej deklaracji nieuniknionego partnera) nigdy nie przekłada się ściśle na „wygraną grę”, nawet dla jednego, naprawionego silnika. Kluczową kwestią jest to, że oceny numeryczne nie mają wyraźnego „znaczenia” w szerokich kategoriach szachowych i są raczej jedynie substytutem świadomej myśli, która służy mechanicznemu kierowaniu silnikiem w kierunku ogólnie pożądanych wyników poprzez wpływanie na to, jaki ruch wybierze w każdym punkcie w grze; w tym świetle najważniejsza dla gry silnika jest jedynie różnica w ocenie przypisana do potencjalnych ruchów, a nie cokolwiek na temat wartości bezwzględnychzaangażowany. Liczby są użyteczne dla samego silnika, który potrzebuje czegoś tak konkretnego, aby podjąć decyzję o jednym ruchu nad drugim, ale my, ludzie, nie powinniśmy być zbyt szybcy, aby odczytać więcej znaczenia na temat wielkości związanych z myślami takimi jak „+ X oznacza wygrana ”.

W szczególności, im bardziej i bardziej zbliżamy się do gry końcowej, w przeciwieństwie do gry pośredniej, tym mniej możemy zastosować zasadę (np. Moje +2,00 dla Houdini w środkowych grach powyżej) o pewnym progu wystarczającym do wygranej. Jednym z głównych powodów tego jest trudność silników w rozpoznawaniu fortec, w których obfitość dodatkowego materiału wciąż nie wystarcza, aby wygrać. Na przykład, kiedy karmię Sztokfisz tą pozycją,

NN - NN

po kilku minutach pomyślałem, że daje to ocenę około +7,00, a na typowej pozycji, gdy mówi Sztokfisz, prawie na pewno masz wygraną. Niemniej jednak jest to remis martwy i człowiek może to łatwo zobaczyć, gdy zda sobie sprawę, że czarne mogą po prostu przetasować wieżę między f6 i h6, a zatem (1) pionek h jest bezużyteczny, a (2) biały król nigdy nie będzie w stanie pomóc atakowi białej królowej. W końcu Sztokfisz rozpozna tutaj również remis, gdy uderzy w 50 ruchów, powiedzmy, lub w końcu zabraknie różnych ruchów, aby spróbować i ostatecznie nie będzie w stanie uniknąć powtórzenia, ale te zdarzenia są znacznie poniżej linii głębokości wyszukiwania.

Pozycja końcowa z twojego wcześniejszego pytania, z którym się połączyłeś, jest podobna do tego rodzaju fortecy, ponieważ dodatkowe połączone pionki, które białe mają tam, są ładne i wszystkie, ale ostatecznie nie dość, aby wygrać w tej pozycji. Jeśli silnik miałby obliczyć wystarczająco dużo czasu, aby zobaczyć tyle informacji, ile jest zawarte w tabelach, wówczas jego ocena spadłaby do 0, ale w międzyczasie jego algorytm oceny nie ma nic lepszego do roboty niż dać za to + dodatkowy materiał (którego jeszcze nie wie, jest bez znaczenia).

ETD
źródło

+1 za „Więcej niż to, jednak ważne jest, aby zrozumieć, że numeryczna ocena silnika pozycji (w przeciwieństwie do jawnej deklaracji nieuniknionego partnera) nigdy nie przekłada się ściśle na wygraną”

ferit

8

Myślę, że to zdjęcie całkiem dobrze opisuje sytuację. Został stworzony z 400 000 gier i uwzględnia tylko zwykły materiał.

Wygraj prawdopodobieństwo / przewagę pionka

Źródło: Pawn Advantage, Win Procent i ELO

Thomas Ahle
źródło

1

Niezły wkład! +1

ferit

@Thomas Ahle: Wykres jest interesujący. Ale oryginalny artykuł nie jest już dostępny, niestety link do wiki-przestrzeni został zerwany. Czy pamiętasz dokładne znaczenie W = prawdopodobieństwo wygranej? Czy wygrana vs. przegrana zignorowała remisy? A może był to „oczekiwany wynik”, biorąc pod uwagę losowania?

Diedrsch

@Diedrsch Zaktualizowałem link

Thomas Ahle,

Oceny komputerowe: czy są godne zaufania?

Odpowiedzi: