To pytanie jest pochodną wcześniejszego pytania Ramona Snira, dotyczącego tego, jak często różne rodzaje pionków poruszają się średnio w grze w szachy. Moje pytanie:
Czy względna liczba ruchów dla danego rodzaju elementów różni się, gdy patrzy się na gry silniejszych graczy w porównaniu do gier słabszych graczy? (Na przykład może słabsi gracze wykonują więcej ruchów pionkami kosztem ruchów pionowych lub wykonują zbyt wiele ruchów królowej. Nie wiem.)
Byłem w stanie udzielić odpowiedzi na wcześniejsze pytanie przy użyciu surowych danych, które ktoś wyodrębnił z dużej bazy danych . Dane te pochodzą z próbki gier 4M +, od gry arcymistrzowskiej po słabą grę amatorską, a łączne liczby podanych tam sum ruchów nie dyskryminują ze względu na siłę gracza. Odpowiedź na moje pytanie będzie wymagać oddzielnych danych dla gier między silnymi graczami i gier między słabymi graczami, a szukam odpowiedzi popartych danymi, a nie anegdotami .
Oto bardziej szczegółowa forma mojego pytania:
Czy istnieje jakiś próg oceny Elo N taki, że gdy spojrzymy na średnią liczbę ruchów w grze w podziale na rodzaj elementu, istnieje znacząca różnica między tym, co znajduje się w grach z graczami powyżej N, a tym, co znajduje się w grach z udziałem graczy poniżej N.
Byłoby interesujące, gdyby można było znaleźć więcej tego rodzaju rzeczy, tj. Konkretne różnice między silniejszymi i słabszymi graczami, które można wykryć przez eksplorację danych. Takie ustalenia mogą wskazywać na określone zachowania, które powstrzymują graczy lub odwrotnie, które napędzają ich do przodu. Być może nie ma takich różnic, które można by znaleźć po prostu patrząc na tego rodzaju dane, ale chciałbym również to wiedzieć.
Odpowiedzi:
Oto szybka, brudna analiza oparta na bazie danych PGN „Million Base”. Zrobiłem to w pośpiechu, więc mogą być błędy w moim programowaniu lub logice. Nie używaj go do niczego zbyt poważnego. Aktualizacja - Uwaga: Właściwie właśnie zauważyłem, że popełniłem błąd w zestawie danych i ograniczyłem go do pierwszego miliona rekordów. Opublikuję aktualizację, gdy będę mieć trochę wolnego czasu, aby uruchomić ją ponownie w pełnym zakresie. Tymczasem liczby te powinny być jednak interesujące.
Uzyskiwanie danych:
Plik Million Base 1.74 uzyskałem z tego adresu URL , ponieważ witryna top-5000.nl wydaje się mieć 404 wartości, gdy faktycznie próbujesz ją pobrać. Plik zawiera nieco ponad 1 milion gier w formacie eksportowym PGN (to znaczy łatwym do przeanalizowania).
Niestety w ponad 60% gier brakowało informacji o ocenie (szukałem tagów „WhiteELO” i „BlackELO”), a jeszcze mniej miało oceny dla obu graczy. Ostatecznie zdecydowałem się na uzyskanie jak największej próbki i policzyłem ruchy gracza, jeśli jego ocena była znana, niezależnie od oceny innego gracza.
Proces:
Gry były analizowane jeden po drugim, a jeśli znana była ocena gracza, wszystkie ich ruchy w tej grze byłyby dodawane do sumy dla grupy ocen gracza. Zdecydowałem się podzielić oceny na grupy po 100, więc np. 1600 do 1699 było jedną grupą.
Ponieważ rzeczywistym tekstem ruchomym w PGN jest SAN, do liczenia ruchów użyłem następującego skrótu: ruchy Rycerza (N), Biskupa (B), Wieży (R), Królowej (Q) i Króla (K) zaczynają się od litery ich kawałka . Castling (OO i OOO) został liczony osobno, jako szczególny przypadek. Wszystkie pozostałe ruchy zostały policzone jako ruchy pionków bez dalszego badania.
Nie przeprowadzono czyszczenia danych. Nie podjęto próby zidentyfikowania wartości odstających i ich usunięcia (np. Wyjątkowo krótkie i długie gry itp.). Zachowałem, ale nie uwzględniłem w poniższej analizie, wyniki z ocen poniżej 1600 - wielkość próby dla tych gier była znacznie poniżej 100, co prowadziło do dużych różnic w wynikach. Surowe dane znajdują się na końcu tego postu.
Kilka wad informacji: w tej chwili zebrałem tylko bardzo podstawowe sumy i podałem średnie. Jestem prawie pewien, że ogólnie dane NIE są normalnie dystrybuowane, ale nie będę w stanie powiedzieć więcej bez faktycznego wyprowadzenia nieprzetworzonych danych i uruchomienia ich za pomocą programu statystycznego. Mogę to zrobić, jeśli jest zainteresowanie. W tej chwili oznacza to brak przedziałów ufności lub inne informacje na temat rozkładu liczb reprezentowanych przez te średnie. Nie sprawdziłem także, ile lat obejmuje zestaw danych - jeśli reprezentuje on wiele lat, może być korzystne podjęcie próby poprawienia ogólnej siły pola.
Niektóre trendy:
Słowo o ocenach graczy - najczęściej spotykane grupy ocen były w kolejności: 2400 do 2500, 2500 do 2600 i 2300 do 2400. Te grupy oceniały 72% zliczonych gier.
Patrząc na rzeczywiste wyniki, średnia długość gry była nieco niespodzianką:
Wszystkie grupy oceniające poniżej 2000 roku miały znacznie krótsze gry niż grupy wyższe. Można to dobrze wytłumaczyć możliwością, że grali silniejszymi przeciwnikami (patrz średnia ocena powyżej) i że zostali pokonani w mniejszej liczbie ruchów. Wydaje się, że jest to sprzeczne z nieco krótszymi grami rozgrywanymi przez grupę z najwyższą oceną, chociaż może to mieć wpływ na mniejszy rozmiar próby.
Stosunkowo duże różnice w średniej długości gry oznaczały, że podanie częstotliwości poruszania się danego elementu, a nie całkowitej liczby ruchów elementu, jest być może bardziej sprawiedliwym porównaniem. Obliczenie częstotliwości daje następujący wykres:
Wydaje się, że obecne są następujące trendy:
Dalsza analiza
Kilka pomysłów na przyszłe analizy:
Zbiorcze dane w formacie CSV
Dla tych, którzy chcą bawić się danymi, nie krępuj się.
Zakres oceny, wielkość próby, średnia długość gry, średnia liczba pionków, średnia liczba ruchów rycerza, średnia liczba ruchów biskupa, średnia liczba ruchów wieży, średnia liczba ruchów królowej, średnia liczba ruchów króla, średnia roszada
źródło