Czy przeprowadzono wiele badań dotyczących inflacji ratingowej?

24

Losowanie Magnusa Carlsena podczas wczorajszej rundy London Chess Classic 2012 zapewniło, że jego ocena na następnej opublikowanej liście rankingowej FIDE przewyższy poprzedni rekord Kasparowa z 2851 roku. Widziałem / słyszałem, jak namiętni fani szachowi dyskutują o względnych zaletach rankingu Carlsena w porównaniu do Kasparowa kontra powiedzmy Fischera. Żeby było jasne, nie o to tu chodzi.

Jednym z kluczowych elementów takich dyskusji jest to, czy oceny Elo generalnie ulegały inflacji z upływem czasu: czy dziś jest tak dużo więcej 2700 arcymistrzów niż 20 lat temu z powodu ogólnego wzrostu siły gry, czy tylko z powodu niektórych ogólny trend inflacyjny w liczbach? Nie próbuję też zabiegać o gołe opinie na temat tego, czy tak jest. Co chcę wiedzieć:

Jakie poważne próby badawcze podjęto, aby odpowiedzieć na pytanie empiryczne, czy oceny FIDE Elo naturalnie wzrosły w czasie z powodu czegoś innego niż wzrost ogólnej siły w puli graczy?

Wpis w Wikipedii dotyczący systemu oceny Elo ma coś do powiedzenia na ten temat, a także wskazuje na artykuł Jeffa Sonasa z Chessmetrics . Oprócz wszelkich wskazówek do pracy innych, z zadowoleniem przyjmuję również odpowiedź, która zawiera jasne, zwięzłe streszczenie głównych uwag Sonasa.

ETD
źródło
Inną rzeczą do przemyślenia jest inflacja w ratingach USCF. Nastąpiło i okresowo USCF dostosowuje wiele do horroru graczy. Ponieważ USCF i FIDE korzystają z tego samego systemu, zasadniczo byłbym zaskoczony, gdyby inflacja mogła wpłynąć na USCF, a nie FIDE.
Tony Ennis,
2
Systemy nie są takie same, na przykład USCF ma dolne poziomy ratingowe, które są wyraźnie czynnikiem inflacyjnym.
RemcoGerlich,

Odpowiedzi:

19

Dziwi mnie, że artykuł „Wewnętrzne oceny szachowe” autorstwa Kena Regana i Guya Hawortha nie został jeszcze opublikowany. To jest dokładnie to, o co proszono, poważne badania inflacji ratingowej. PDF

Zasadniczo otrzymali gry z trzech okresów (1976–1979, 1991–1994, 2006–2009), w kilku przedziałach ocen (np. Obaj gracze w granicach 10 punktów od 2200, w granicach 10 punktów od 2300 itd.), I wykluczyli typy gier, które mogą być anomalne, jak mecze drużynowe. Przeczytaj artykuł, wygląda dość dokładnie.

Następnie porównali gry systematycznie z Rybką 3.

Niektóre zdania z konkluzji:

Dochodzimy do wniosku, że istnieje płynny związek między faktycznymi ocenami Elo graczy a rzeczywistą jakością wyborów do ruchu mierzonych przez program szachowy i dopasowanie agenta. Ponadto otrzymane końcowe wartości dopasowania są prawie takie same dla odpowiednich wpisów dla wszystkich trzech okresów.

Moim zdaniem jest to dość solidny dowód przeciwko istnieniu inflacji ratingowej.

RemcoGerlich
źródło
1
Dzięki za opublikowanie tego, przyjechałem też to udostępnić. To jedyna linia badań, która porównała graczy z obiektywnym standardem. Wszystkie argumenty, które widziałem w celu oceny inflacji, są subiektywne i ogólnie anegdotyczne. Osobiście nie sądzę, że fakt, że Morphy miał prawdopodobnie 2300 lat, odbiera moje uznanie dla jego gier lub umiejętności w stosunku do ówczesnych konkurentów.
Sam Copeland,
12

Pogrzebałem trochę. Prawdopodobnie widziałeś te strony, ale i tak je opublikuję:

za. Ta strona Cię zainteresuje . Zawiera kserokopię listu samego Elo z informacją o możliwości:

W miarę upływu czasu skala ratingowa może się zmieniać, chyba że zostaną podjęte pewne środki w celu jej ustabilizowania.

Ponadto wspomina, że ​​skala ocen nie ma kotwicy, ani stałego punktu. Porównaj ze sportowcem, który biegnie za godzinę; godzina jest teraz taka sama jak godzina 50 lat temu. Czas jest takim stałym punktem.

b. Ponadto, czy na pytanie „inflacyjne” nie udzielono już odpowiedzi w ostatnich ujawnieniach wysokich ocen pochodzących z odizolowanych obszarów? Zobacz sekcję „Pula graczy” na tej stronie, aby uzyskać aluzję do problemu. Dodatkowe wsparcie , choć nie ma charakteru naukowego ani szczególnie informacyjnego. Wyszukaj „isol”. Oto kolejna anegdota pokazująca, co dzieje się z izolowanymi populacjami (i innym kandydatem do wątku „dlaczego wariaci są szaleni”!) Nie sprawdziłam tego, ale powinna być łatwa do zrobienia.

do. Artykuł Elo na wiki mówi o inflacji, jakby to był fakt zaakceptowany.

re. Oto niemiecki artykuł na temat inflacji i działań następczych . Spójrz na ten pistolet do palenia w 1986 roku!

Tony Ennis
źródło
Nie widziałem strony z., Dzięki za to. W odniesieniu do b. Nie jestem świadomy tego, o czym mówisz; czy możesz rozwinąć?
ETD,
2
Twierdziłbym, że bez faktycznej kotwicy niemożliwe jest dokładne dostosowanie; ostatecznie dostosowujemy się tylko do dowolnej wartości.
Daniel B,
Możliwie. Ale dostosowanie ocen w celu uzyskania podobnej krzywej rozkładu prawdopodobnie byłoby dobrym początkiem. Na przykład kilka lat temu USCF dostosowuje oceny, więc przeciętny zawodnik klubu miał 1500 lat. Nie wiem, czy nadal to robią.
Tony Ennis,
1
@ TonyEnnis Pewnie, i myślę, że na razie jest to prawdopodobnie tak dobre, jak to możliwe. W szczególności mam na myśli: co się stanie, jeśli „przeciętny zawodnik klubu” jest dziś lepszy niż 50 lat temu? To nie tak, że możemy zmusić ich do gry przeciwko graczom z przeszłości ... Więc pozostaje nam jakoś oszacowanie siły gracza i dostosowanie się. Być może z programami komputerowymi (działającymi na standardowej, przepisanej platformie) moglibyśmy mieć jakąś bezstronną, trwałą kotwicę. Ale nawet to miałoby problemy, takie jak odkrycie strategii, które działają dobrze w porównaniu z programem porównawczym itp.
Daniel B
5

W wartościach bezwzględnych Carlsen 2012 z pewnością jest silniejszym graczem niż Kasparow 1985.

Gdyby Carlsen 2012 odbył w czasie mecz z Kasparowem 1986, Carlsen pokonałby Kasparowa. Jest tak po prostu dlatego, że preparat wspomagany technologią jest o wiele bardziej wydajny, a Carlsen ma również przewagę w teorii otwarcia, ponieważ ma zgromadzoną wiedzę 1987–2012, której Kasparow nie ma.

Jednak Kasparow jest prawdopodobnie silniejszym graczem niż Carlsen. Jeśli weźmiemy listę FIDE Top 100 za czerwiec 2000 r. (Najstarszą, którą można uzyskać), widzimy, że Kasparow z 2849 Elo konkuruje ze średnią 2641 o 99 obserwujących (odległość Elo 208 punktów), podczas gdy Calsen w Fide Top 100 na grudzień 2012 z 2848 Elo rywalizuje ze średnią 2702 o 99 swoich obserwujących (dystans Elo 146 punktów).

Elo dotyczy różnicy punktów, a nie wartości bezwzględnych (100 punktów różnicy dla Elo oznacza, że ​​gracz A jest 2 razy lepszy niż gracz B, 200 punktów oznacza 4 razy lepiej itd. Tak więc z tą listą oznaczało to, że Kasparow był średnio ponad 4 razy lepszy niż wszyscy jego 99 obserwujących, podczas gdy Carlsen jest prawdopodobnie tylko 3 razy lepszy niż średnia z jego 99 obserwujących.

Jeśli weźmiemy listę, na której Kasparow ma maksymalny dystans ze swoimi 99 obserwatorami i porównamy ten dystans z najlepszym dla Carlsena, będziemy mogli ustalić, który gracz był rzeczywiście największy, ponieważ z 99 punktami danych, wartości odstające (jak inny geniusz) złagodzić to.

Zastanawiam się jednak, czy Carlsen lub Kasparow naprawdę zależy na tym, kto był lepszy.

Energia
źródło
3
Twój spór o to, że Kasparow jest silniejszym graczem niż Carlsen, polega na porównaniu każdego z następnych 99 najlepszych graczy. Prawidłowo zauważasz, że oceny Elo są względne, ale twój argument zawiera drugie, nieokreślone założenie, a mianowicie, że kolejnych 99 graczy ma dzisiaj taką samą średnią siłę gry, jak kolejne 99 w czasach świetności Kasparowa. Jeśli to drugie założenie nie jest prawdziwe, porównujesz Kasparowa i Carlsena z różnymi standardami. Musisz znaleźć grupę ludzi, którzy są tacy sami dzisiaj jak za dni Kasparowa. Ta pula jest prawdopodobnie twoim przeciętnym początkującym, a nie super-arcymistrzem.
Thucydides411
4

System Elo miał dwa elementy. Jeden był niezależny od historii, drugi nie. Jego system do tworzenia „oceny wydajności” w trakcie wydarzenia lub okresu czasu nie miał w nim żadnego elementu historycznego; była to po prostu miara wydajności w określonym czasie. (Pamięć zawodzi mnie w tej kwestii, ale myślę, że kiedy obliczał oceny FIDE, to była metoda, którą zastosował.)

Jednak system Elo stosowany przez federacje na całym świecie ma element historyczny, w którym oceny są obliczane poprzez obliczenie delty, zmiany w stosunku do poprzedniej oceny.

System oparty na historii ma naturalną tendencję do deflacji. System jest systemem zamkniętym, bez tworzenia nowych punktów. Tak więc nowi gracze wchodzą, zbierają punkty od ustalonych graczy, a następnie wychodzą (przez śmierć lub przejście na emeryturę) przed powrotem wszystkich tych punktów z powrotem do następnej partii wschodzących graczy.

Próbowano to zrekompensować w wielu pomysłach, niektóre działały lepiej niż inne. Dodajmy do tego presję komercyjną w USCF z początku lat 70., aby rankingi rosły szybciej (raczej cyniczny pogląd był taki, że gracze kupiliby książkę z USCF i grali w turnieju, ich ocena wzrastałaby, zachęcając ich do zakupu kolejnej książka itp.), a inflacja była w niektórych momentach faktem.

Ponieważ system Elo opierał się na krzywej normalnej (dzwonowej), nie ma sensu próbować zmierzyć inflacji, mierząc albo skrajność; na skrajności ma większy wpływ ogólna liczba ocenianych graczy niż zmiany rzeczywistej siły lub wszelkiego rodzaju inflacja.

Arlen
źródło
1

Mam prosty pomysł. Weźmy komputer szachowy (sprzęt + oprogramowanie), którego ocena została zmierzona 20 lat temu, poprzez grę z innymi komputerami szachowymi o znanych ocenach, które mieli 20 lat temu. Teraz zmierzmy teraz jego ocenę (dokładnie ten sam sprzęt plus dokładnie to samo oprogramowanie), grając na nowoczesnych komputerach szachowych, o znanej dzisiejszej ocenie. Różnica między dwoma pomiarami stanowiłaby inflację ratingową za ostatnie 20 lat. Wystarczająco proste?

alex1220
źródło
Obliczałoby to mniej więcej inflację ratingową dla komputerów , a nie dla ludzi. Ludzie grają inaczej przeciwko komputerom niż między sobą.
Glorfindel
1

Wnioski z pracy Regana-Hawortha należy traktować z odrobiną soli, ponieważ wydaje się, że jest to sprzeczne z innymi komputerowymi analizami gier, lepszym oprogramowaniem i sprzętem oraz bardziej zaawansowanymi metodami matematycznymi. Tam dochodzą do wniosku (patrz Tabela 9), np. Że Karpov w 1977 roku grał na nieco nieco niższym poziomie niż Kasparow w 2001 roku i Anand w 2008 roku (oczekuje się, że zdobędzie około 47% punktów), a właściwie lepiej niż Topałow w 2005 roku i Ponomariow w 2011. Ponieważ Kasparow-2001 jest 150 punktów wyżej oceniony niż Karpow-1977, ocena spodziewałaby się, że zdobędzie 70% punktów. Nie rozumiem, jak pogodzić to z twierdzeniem, że nie było inflacji ratingowej.

Należy również zauważyć, że w przeciwieństwie do domniemanego twierdzenia w pytaniu, nie ma mechanizmu, za pomocą którego ocena odzwierciedlałaby zmianę ogólnej siły w puli graczy . Empirycznie może się zdarzyć, że typowa siła gracza 2600 nie zmieniła się w pewnym okresie czasu, ale byłby to jedynie zbieg okoliczności, a nie odzwierciedlenie podstawowych właściwości systemu ELO, a na pewno nie uogólniony.

Jeśli raczej zdefiniujemy inflację naiwnie i po prostu zmierzymy średnią ocenę 100 najlepszych graczy, wówczas, jak widać z tego łącza , do 2012 r. Utrzymywała się stała inflacja, a od tego czasu nie było inflacji - średnia ocena w pierwszej 100 oscylowała między 2700 i 2705 za ostatnie 7 lat .

Kostya_I
źródło
0

Najpierw musisz zdefiniować, co masz na myśli, najlepiej. Na przykład, czy najlepiej oznacza, że ​​jesteś najbardziej dominującym graczem w swojej erze? Czy oznacza to, że jakość twojego odtwarzacza jest lepsza niż wszystkich innych graczy. A jeśli jakość jest tym, co masz na myśli, to jak definiujesz jakość?

Paul Morphy był prawdopodobnie najbardziej dominującym graczem. Na przykład, kiedy miał 12 lat, pokonał dziesiątkę najlepszych graczy (Lowenthal) w meczu 3-0. Według Edo i szachisty był prawdopodobnie jednym z najlepszych graczy na świecie w wieku 12 lat! W wieku 21 lat grał przeciwko 5 najlepszym graczom (Bird, Barnes, Boden, De Reviere i Lowenthal) i zdobył 3-2.

Jednak większość twierdzi, że dominacja jest słabym wskaźnikiem tego, kto jest najlepszy. W końcu Morphy został opisany jako pierwszy współczesny szachista. Jego konkurencja była słaba w porównaniu z kolejnymi mistrzami.

Inną używaną definicją jest jakość gry. Jednak ta definicja ma również wiele problemów. W setkach 1900 r. Wiele osób twierdziło, że Steinitz lub Lasker byli najlepszymi graczami wszechczasów, argumentując, że ich wiedza na temat otwierania i nowoczesnej teorii uczyni ich lepszymi od graczy z przeszłości. Jednak Louis Paulsen przedstawił kilka bardzo sprytnych argumentów przeciwko tej hipotezie. Twierdził, że Morphy (który miał pamięć fotograficzną i zapamiętał kod kreskowy Louisana w wieku 19 lat), gdyby został przywrócony do życia, nauczyłby się nowych możliwości i współczesnej teorii w ciągu roku i byłby w stanie skutecznie konkurować z nowoczesnymi szachistami.

Regan twierdzi, że współcześni szachowi gracze, którzy mają dostęp do komputerów szachowych i nowoczesnych metod treningu, grają bardziej jak komputery niż gracze z przeszłości. Nie jest to zaskoczeniem, ponieważ zostali przeszkoleni przez komputery, ale czy to oznacza, że ​​współcześni gracze są naprawdę lepsi? To nasuwa pytanie, co zrobiliby Fischer lub Capablanca, gdyby mieli dostęp do nowoczesnych komputerów?

Ponadto komputer analityczny profesora Regana wydaje mi się raczej niekompletny, ponieważ obejmuje tylko kilka pięcioletnich okresów, a gracze objęci analizą nie są wspomniani. Dokładniejsza analiza komputerowa przeprowadzona przez profesorów Matej Guida i Ivana Bratko wykazała, że ​​w rzeczywistości Capablanca grała bardziej jak komputer niż współcześni gracze! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-. Jednak Guid i Bratko zauważyli, że istnieje problem z wnioskiem z tego, że Capablanca była lepszym graczem. Być może jego raczej spokojny styl doprowadził do mniejszej liczby pozycji, w których mógłby się pomylić. Dlatego jego procent błędów był niższy, ale wywierał również mniejszą presję na przeciwników niż bardziej agresywni gracze. W rzeczywistości Capablanca miał wysoki odsetek remisów w porównaniu ze swoimi współczesnymi.

W przeciwieństwie do tego, tak wysoce taktyczny gracz, taki jak Kasparow, może zostać ukarany za swój styl gry, który z większym prawdopodobieństwem doprowadziłby do bardzo taktycznych pozycji, w których komputery są szczególnie dobre w wykrywaniu błędów. W rzeczywistości komputery zwykle działają lepiej w przypadku graczy taktycznych niż graczy pozycyjnych lub w szczególności graczy z zamkniętą pozycją, w których taktyka odgrywa mniejszą rolę. Tak więc analiza komputerowa, która opiera się na liczbie wykrytych błędów komputerowych, może sprzyjać uspokajającym graczom o zamkniętej pozycji. Natomiast agresywny gracz, taki jak Kasparow, może popełnić więcej błędów taktycznych niż niektórzy inni gracze, ponieważ szukał bardzo skomplikowanych pozycji, ale jego przeciwnicy zrobią jeszcze więcej!

Dlatego potrzebujesz systemu ważenia błędów, który nie tylko oblicza odsetek błędów na 100 ruchów (co w zasadzie zrobili Regan, Guid i Bratko). Zamiast tego musisz obliczyć różnicę między poziomem błędu a poziomem błędu przeciwników. W końcu szachy polegają na popełnianiu mniej błędów niż przeciwnik. Nacisk na przeciwnika, aby wywoływał więcej błędów, jest uważany za dobrą jakość.

Jednak moja zmieniona metoda obliczeń prowadzi do kolejnego problemu, który polega na tym, że te analizy komputerowe nie uwzględniają siły przeciwnika. Na przykład być może Larson osiąga bardzo wysoką ocenę szachową, ponieważ jego agresywny (optymistyczny) styl doprowadził do dominacji nad graczami o niższej ocenie. Miał jednak problemy w grach przeciwko graczom o równej ocenie. Inni gracze często twierdzili, że był zbyt optymistyczny w swojej grze przeciwko innym wysoko ocenionym graczom. Aby uniknąć tego problemu, komputerowa analiza błędów powinna sprawdzać tylko gry z silnymi konkurentami (np. 10, 20 lub 100 najlepszych graczy). Nie rozwiązuje to jednak problemu rosnącej konkurencji z czasem.

Czy problem poprawy jakości gry można rozwiązać, patrząc na poprzednie oceny, takie jak Chessmetrics? Właściwie wolę system oceny wstecznej Edo http://www.edochess.ca/ponieważ założenia statystyczne są lepsze. Na przykład Chessmetrics zakłada, że ​​najwyższa ocena gracza występuje, gdy ma on 40 lat. Wątpię, czy dotyczy to wszystkich i wielu graczy rezygnuje z szachów przed tym wiekiem lub ich gra była tylko na najwyższym poziomie przez kilka lat (np. Harry Nelson Pillsbury, Charousek, Fischer, Morphy, Rubinstein, Fine). Niestety, Edo porównuje tylko oceny zawodników od 1811 do 1920. Według Edo, Capablanca i Morphy są dwoma najwyższymi graczami z tej epoki. Według Chessmetrics, Capablanca i Lasker byli dwoma najlepszymi graczami (Morphy nawet nie znajduje się w pierwszej dziesiątce). Według Chessmetrics, Zukertort, Steinitz, Tarrasch, Lasker, Pillsbury, Maroczy, Marshall, Janowsky, Chigorin, Schelecter, Blackburne, Duras, Teichmann, Neumann, Vidmar, Gunsberg, Rubinstein i Burn byli lepsi niż Morphy.

Jeśli innowacja prowadzi do dominacji w danej erze szachowej w czasie i z czasem staje się coraz trudniejsza do wprowadzenia innowacji wraz ze wzrostem siły konkurencji, nie można zmierzyć prawdziwej dominacji, patrząc tylko na wyniki 30 najlepszych graczy. Oznacza to, że Magnus Carlsen jest znacznie trudniejszy do zdominowania swoich przeciwników, niż w przypadku poprzednich mistrzów. Jeśli spojrzysz na poprzednie oceny, łatwo zauważyć, że z czasem maleje różnica między ocenami najlepszych graczy. Uważam więc, że model statystyczny typu Edo, który uwzględnia trudność dominacji w czasie, byłby lepszym podejściem niż to, co wcześniej wypróbowano. Na przykład Fischer był dość dominującym graczem w swojej erze, ponieważ wygrał 20 gier z rzędu. Jaka była najdłużej wygrana seria Kasparowa lub Karpowa w porównaniu do tej zwycięskiej serii? Według Seirawana, ich najdłuższe zwycięskie serie to siedem gier.

Oczywiście nie twierdzę, że zwycięskie serie to dobra metryka. Po prostu twierdzę, że dominacja w rankingach lub w pojedynczych meczach z innymi najlepszymi graczami jest użyteczną miarą, która nie jest wyraźnie brana pod uwagę w obecnych systemach oceny wstecznej.

Tak więc moją wymarzoną analizą jest to, że używasz ocen Edo opartych na bazie danych, która zawiera tylko 20 lub 30 najlepszych graczy z każdego okresu pięciu lat. Po zakończeniu tej analizy ponownie przeważasz swoje wyniki czynnikiem dominującym. Oznacza to, że nowi gracze otrzymują współczynnik premii, który jest obliczany przez oszacowanie trajektorii trudności dominacji w czasie (zmniejszenie rozbieżności w rankingu między 30 najlepszymi graczami w czasie). Następnie zweryfikowałbyś tę analizę, porównując procent graczy obliczonych przez komputer szachowy pomyłek popełnionych przez przeciwników minus własne pomyłki. Jeśli to unieważnia powyższe, musisz przeważyć ponownie zgodnie z komputerową analizą błędów, jeśli pokazuje, że istnieje tendencja do grania przez najlepszych najlepszych graczy nawet po uwzględnieniu mojego współczynnika dominacji.

Domyślam się, że Kasparow poradziłby sobie bardzo dobrze. Ale to tylko przypuszczenie.

Todd
źródło
2
To nie wydaje się odpowiadać na pytanie.
Herb Wolfe
Chodzi mi o to, że nie możesz odpowiedzieć na pytanie o inflację ratingową, dopóki nie zdefiniujesz umiejętności szachowych. Przejrzałem badania próbujące skorygować inflację ratingową lub próbę ustalenia, jak różne są umiejętności szachowych mistrzów w czasie (na tym właśnie polega inflacja ratingowa). Uważam, że problem polega na tym, że badacze tak naprawdę nie zidentyfikowali swoich założeń dotyczących tego, w co wierzą, że są umiejętności szachowe. Moim zdaniem bez zdefiniowania umiejętności szachowych nie można odpowiedzieć na pytanie, czy zdolność szachowa zmienia się z czasem, ani nie powiedzieć nic o inflacji ratingowej.
ToddM