Każdy, kto podąży za baseballem, prawdopodobnie słyszał o nieoczekiwanym występie Jose Bautisty w Toronto typu MVP. W ciągu czterech poprzednich lat osiągnął około 15 przebiegów u siebie w sezonie. W zeszłym roku osiągnął 54 lata, a liczba ta przekroczyła zaledwie 12 graczy w historii baseballu.
W 2010 roku wypłacono mu 2,4 miliona, a on prosi zespół o 10,5 miliona na rok 2011. Oferują 7,6 miliona. Jeśli uda mu się to powtórzyć w 2011 roku, z łatwością będzie wart jednej z tych kwot. Ale jakie są szanse, że się powtórzy? Jak trudno możemy oczekiwać, że cofnie się do średniej? Jak wiele z jego występów możemy oczekiwać od przypadku? Czego możemy się spodziewać po jego skorygowanych wartościach regresji do średniej? Jak to wypracować?
Bawiłem się bazą danych baseballu Lahman i wyciągnąłem zapytanie, które zwraca sumy dla wszystkich graczy z poprzednich pięciu sezonów, którzy mieli co najmniej 50 nietoperzy na sezon.
Tabela wygląda następująco (zauważ Jose Bautista w wierszu 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
a pełny wynik (232 wiersze) jest dostępny tutaj .
Naprawdę nie wiem od czego zacząć. Czy ktoś może skierować mnie we właściwym kierunku? Szczególnie przydatna byłaby odpowiednia teoria i polecenia R.
Dziękuję uprzejmie
Tommy
Uwaga: przykład jest nieco wymyślony. Ucieczki z domu zdecydowanie nie są najlepszym wskaźnikiem wartości gracza, a sumy u siebie nie uwzględniają różnej liczby szans na sezon, że pałkarz ma szansę trafić do domu (wyglądy płyt). Nie odzwierciedla to również faktu, że niektórzy gracze grają na bardziej sprzyjających stadionach i że średnie wyniki u siebie w lidze zmieniają się z roku na rok. Itd. Itd. Jeśli potrafię uchwycić teorię leżącą u podstaw regresji do średniej, mogę ją zastosować w bardziej odpowiednich miarach niż HR.
źródło
Odpowiedzi:
Myślę, że zdecydowanie istnieje skurcz bayesowski lub wcześniejsza korekta, która mogłaby pomóc w przewidywaniu, ale możesz również rozważyć inny hals ...
Przejrzyj graczy z historii, nie tylko ostatnich kilku lat, którzy przeżyli sezony przełomowe po kilku głównych zawodach (dramatyczne wzrosty, być może 2x) i zobacz, jak im poszło w następnym roku. Możliwe jest, że prawdopodobieństwo utrzymania wydajności jest właściwym predyktorem.
Istnieje wiele sposobów spojrzenia na ten problem, ale jak powiedział mpiktas, będziesz potrzebować więcej danych. Jeśli chcesz poradzić sobie z ostatnimi danymi, musisz spojrzeć na ogólne statystyki ligi, miotaczy, z którymi ma do czynienia, to złożony problem.
A potem jest tylko rozważanie własnych danych Bautisty. Tak, to był jego najlepszy rok, ale po raz pierwszy od 2007 roku miał ponad 350 AB (569). Możesz rozważyć konwersję procentowego wzrostu wydajności.
źródło
Państwo może dopasować model do tych danych i sam się przypuszczenia, że konto dla regresji do średniej za pomocą mieszanych (wielopoziomowych) modeli. Prognozy z takich modeli uwzględniają regresję do średniej. Nawet nie wiedząc prawie o baseballu, nie znalazłem wyników, w które byłem wyjątkowo wiarygodny, ponieważ, jak pan mówi, model naprawdę musi brać pod uwagę inne czynniki, takie jak wygląd płyty.
Myślę, że model mieszany z efektami Poissona byłby bardziej odpowiedni niż liniowy model mieszany, ponieważ liczba biegów w domu jest liczbą. Patrząc na dostarczone dane , histogram
hr
pokazuje, że jest mocno wypaczony, co sugeruje, że liniowy model mieszany nie będzie działał dobrze i zawiera dość dużą liczbę zer, z godziną przekształcenia logarytmu lub bez niego.Oto kod używający
lmer
funkcji z pakietu lme4 . Po utworzeniu zmiennej ID w celu identyfikacji każdego gracza i przekształceniu danych do formatu „długiego”, jak wskazał mpiktas w swojej odpowiedzi (zrobiłem to w Stata, ponieważ nie jestem dobry w zarządzaniu danymi w R, ale możesz to zrobić w pakiet arkuszy kalkulacyjnych):To pasuje do modelu z łączem logarytmicznym, dającym wykładniczą zależność wskaźnika trafień w zależności od roku, co może się różnić w zależności od gracza. Możliwe są inne funkcje łącza, chociaż łącze tożsamości dało błąd z powodu ujemnie dopasowanych wartości. Łącze sqrt działało jednak ok i ma niższe BIC i AIC niż model z łączem logu, więc może być lepiej dopasowane. Prognozy dotyczące wskaźnika trafień w 2011 r. Są wrażliwe na wybraną funkcję linku, szczególnie dla graczy takich jak Bautista, których wskaźnik trafień ostatnio bardzo się zmienił.
Obawiam się, że nie udało mi się wyciągnąć takich prognoz
lme4
. Jestem bardziej zaznajomiony ze Statą, co sprawia, że bardzo łatwo uzyskać prognozy dla obserwacji z brakującymi wartościami wyniku, chociaż xtmelogit nie wydaje się oferować żadnego wyboru funkcji łącza innej niż log, co dało prognozę 50 dla Bautisty home biegnie w 2011 roku. Jak powiedziałem, nie wydaje mi się to aż tak wiarygodne. Byłbym wdzięczny, że ktoś mógłby pokazać, jak wygenerować prognozy na 2011 r. Na podstawie powyższychlmer
modeli.Ciekawy może być również model autoregresyjny, taki jak AR (1) dla błędów na poziomie gracza, ale nie wiem, jak połączyć taką strukturę z mieszanym modelem Poissona.
źródło
Potrzebujesz dodatkowych danych o graczach i ich cechach w czasie, w którym masz dane o biegach domowych. W pierwszym kroku dodaj zmienne w czasie cechy, takie jak wiek graczy lub doświadczenie. Następnie możesz użyć modelu danych HLM lub panelu. Będziesz musiał przygotować dane w postaci:
Najprostszym modelem byłby wtedy (funkcja lme pochodzi z pakietu nlme )
Ten model będzie w dużym stopniu opierał się na założeniu, że numer prowadzony u każdego gracza zależy tylko od doświadczenia, z pewną zmiennością. Prawdopodobnie nie będzie to bardzo dokładne, ale przynajmniej poczujesz, jak mało prawdopodobne są liczby Jose Bautisty w porównaniu do przeciętnego gracza. Ten model można ulepszyć, dodając cechy innych graczy.
źródło
Możesz sprawdzić The Book Blog.
Tom Tango i inni autorzy „The Book: Playing the Percentages in Baseball” są prawdopodobnie najlepszymi źródłami sabermetrii na rynku. W szczególności uwielbiają regres do średniej. Wymyślili system prognozowania zaprojektowany jako najbardziej podstawowy akceptowalny system (Marcel) i opiera się on prawie wyłącznie na regresji do średniej.
Z góry myślę, że jedną z metod byłoby wykorzystanie takiej prognozy do oszacowania prawdziwego talentu, a następnie znalezienie odpowiedniego rozkładu wokół tego średniego talentu. Gdy to zrobisz, każdy wygląd płytki będzie podobny do próby Bernoulliego, więc rozkład dwumianowy może zająć ci resztę drogi.
źródło
FYI, od 2011 do 2014 roku, trafił 43, 27, 28 i 35.
Jest to dość zbliżone do jego średniej z 32 gier na poziomie 32 (która oczywiście obejmuje te wartości) i około 1 SD poniżej 54 w 2010 roku.
Wygląda jak regresja do średniej w akcji: Ekstremalna grupa zbudowana przez wykorzystanie hałaśliwych przedmiotów (w tym przypadku 1) odbiegających od grupy przez przypadek.
http://www.baseball-reference.com/players/b/bautijo02.shtml
źródło