Określa, czy zastosować przesunięcie w regresji Poissona podczas przewidywania całkowitej liczby bramek strzelonych przez hokeistów

10

Mam pytanie dotyczące tego, czy należy użyć przesunięcia. Załóż bardzo prosty model, w którym chcesz opisać (ogólną) liczbę bramek w hokeju. Masz więc bramki, liczbę rozegranych gier i zmienny manekin „napastnik”, który jest równy 1, jeśli gracz jest napastnikiem, a 0 w przeciwnym razie. Który z poniższych modeli jest poprawnie określony?

  1. gole = mecze + napastnik lub

  2. gole = offset (mecze) + napastnik

Ponownie, cele są ogólnymi celami, a liczba gier to ogólna liczba gier dla jednego gracza. Na przykład może być wybrany gracz, który ma 50 bramek w 100 grach i inny gracz, który ma 20 bramek w 50 grach i tak dalej.

Co mam zrobić, gdy chcę oszacować liczbę celów? Czy naprawdę konieczne jest tutaj użycie przesunięcia?

Bibliografia:

MarkDollar
źródło
Jaka jest twoja zmienna zależna? Czy jest to łączna liczba bramek dotychczasowej kariery dla konkretnego gracza? Czy jest też powód, dla którego nie chcesz przewidzieć średnich bramek na mecz?
Jeromy Anglim
Tak, to łączna liczba bramek! Nie, nie mam danych dla każdej gry. Mam tylko ogólne dane.
MarkDollar
Zmienna zależna to (liczba) celów. (Zobacz równania powyżej)
MarkDollar
Ulepszyłem nieco tytuł, aby nie był duplikatem poprzedniego pytania. Zapraszam do modyfikacji, jeśli popełniłem błąd.
Jeromy Anglim

Odpowiedzi:

16

Model offsetowy modeluje cele na mecz, jak widać tutaj:

log(goals/games) = a+bx

jest równa

log(goals) -log(games) = a+bx

jest równa

log(goals)= a+bx +log(games)   <-this is an offset model, assumes coef on the last term =1

Zobacz slajd 35 tutaj: http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/4glm3-ha-online.pdf

Jeśli uważasz, że a + bx ma związek z logarytmem stosunku bramek do gier (stawki), użyj przesunięcia. Jeśli uważasz, że efekt gry jest bardziej skomplikowany, być może z powodu gromadzenia doświadczenia, nie rób tego. Więcej dyskusji można znaleźć tutaj: http://ezinearticles.com/?The-Exposure-and-Offset-Variables-in-Poisson-Regression-Models&id=2155811

Patrick McCann
źródło
1

Kilka prostych kwestii, które nie odnoszą się bezpośrednio do twojego pytania dotyczącego przesunięć:

  • Chciałbym sprawdzić, czy liczba meczów jest skorelowana ze średnią strzelonych bramek. W wielu elitarnych sportach strzelających bramki, o których mogę myśleć (np. Piłka nożna, australijskie reguły futbolu itp.) Przewidywałbym, że długowieczność kariery wiąże się z jej sukcesem. I przynajmniej dla graczy pełniących role strzelców bramek sukces zależy od liczby zdobytych bramek. Jeśli to prawda, liczba gier przechwyciłaby dwa efekty. Można by odnieść się do samego faktu, że więcej rozegranych gier oznacza więcej okazji do zdobywania bramek; a drugi uchwyciłby efekty związane z umiejętnościami. Możesz zbadać związek między liczbą gier a średnią strzelonych bramek (np. Bramki / liczba gier), aby to zbadać. Myślę, że ma to istotne konsekwencje dla każdego modelowania, które wykonujesz.
  • Moim instynktem jest przekształcenie zmiennej zależnej w średnią liczbę bramek na mecz. Zdaję sobie sprawę, że dla tych, którzy grali w więcej gier, miałbyś dokładniejszy pomiar umiejętności gracza, więc może to byłby problem. W zależności od pożądanej precyzji w modelu i wynikającego z tego rozkładu gracza, możesz polegać na standardowych technikach modelowania liniowego. Ale być może jest to nieco zbyt stosowane do twoich celów i być może masz powody, aby chcieć modelować całkowitą liczbę zdobytych bramek.
Jeromy Anglim
źródło
Cześć Jeromy! To, co descirbe jest absolutnie poprawne. Ale nie ma sposobu na stworzenie modelu mierzącego cele / gry. Więc jestem zmuszony do powyższego modelu (cele jako zależne i gry jako niezależna zmienna). Wiem, że gry są skorelowane z umiejętnościami i że muszę zbadać ten problem (problem pominiętych zmiennych i endogenność). Ale w tej chwili zastanawiam się, który z dwóch powyższych modeli powinien zostać użyty!
MarkDollar