Modelowanie meloników do krykieta wydostających się z nieba

9

Mam zestaw danych opisujący dużą liczbę gier w krykieta (kilka tysięcy). W krykieta „meloniki” wielokrotnie rzucają piłkę z rzędu „pałkarzy”. Melonik próbuje wydostać pałkarza na zewnątrz. Pod tym względem przypomina miotacze i pałkarzy w baseballu.

Gdybym wziął cały zestaw danych i podzielił całkowitą liczbę piłek, które wydały odbijającego przez całkowitą liczbę rzuconych piłek, widzę, że miałbym średnie prawdopodobieństwo, że melonik wydostał odbijającego - wyniesie około 0,03 ( mam nadzieję, że już się nie pomyliłem?)

Interesuje mnie to, co mogę zrobić, aby spróbować obliczyć prawdopodobieństwo, że dany pałkarz zostanie wyrzucony przez określonego melonika przy następnej piłce.

Zestaw danych jest na tyle duży, że każdy melonik wydałby tysiące piłek szerokiej gamie pałkarzy. Uważam więc, że mógłbym po prostu podzielić liczbę outów osiągniętych przez melonika przez liczbę piłek, które rzucił, aby obliczyć nowe prawdopodobieństwo, że ten konkretny melonik wyjdzie z następnej piłki.

Mój problem polega na tym, że zestaw danych nie jest wystarczająco duży, aby zagwarantować, że dany melonik rzucił statystycznie znaczącą liczbę piłek na dowolnego odbijającego. Jeśli więc jestem zainteresowany obliczeniem prawdopodobieństwa wyjścia na konkretny melonik w obliczu konkretnego odbijającego, nie sądzę, że można tego zrobić w ten sam uproszczony sposób.

Moje pytanie brzmi, czy następujące podejście jest prawidłowe:

  • W całym zestawie danych prawdopodobieństwo wyrzucenia piłki wynosi 0,03.

  • Jeśli obliczę, że przeciętnie melonik A ma szanse na wyjście z 0,06 (tj. Dwa razy bardziej prawdopodobne niż przeciętny melonik),

  • i przeciętnie pałkarz B miał prawdopodobieństwo, że przekroczy 0,01 (jedna trzecia jest tak prawdopodobna jak przeciętny pałkarz),

  • czy zatem uzasadnione jest stwierdzenie, że prawdopodobieństwo, że ten konkretny odbijający znajdzie się przy następnej piłce do tego konkretnego melonika, wyniesie 0,06 * (0,01 / 0,03) = 0,02?

Ravi
źródło
Jeśli melonik zdecyduje się wielokrotnie rzucać piłką, szybko zostanie usunięty z możliwości rzucenia kręgli w grze.
Glen_b

Odpowiedzi:

2

Gdybym wziął cały zestaw danych i podzielił całkowitą liczbę piłek, które wydały odbijającego przez całkowitą liczbę rzuconych piłek, widzę, że miałbym średnie prawdopodobieństwo, że melonik wydostał odbijającego - wyniesie około 0,03 (mam nadzieję, że Nie pomyliłem się już?)

Niestety, może nie jest to już dokładnie to, czego szukasz.

Załóżmy, że mamy jednego melonika i dwóch pałkarzy: Don Bradman i ja. (Wiem bardzo niewiele o krykieta, więc jeśli robię coś tutaj, daj mi znać.) Gry wyglądają mniej więcej tak:

  • Don idzie na nietoperz i jest na 99. misce.
  • Idę uderzać i natychmiast wychodzę.
  • Don idzie na nietoperz i jest na 99. misce.
  • Idę uderzać i natychmiast wychodzę.

W tym przypadku są cztery wyjścia z 200 misek, więc minimalne prawdopodobieństwo, że melonik wyjdzie z odbijacza, szacuje się na 4/200 = 2%. Ale tak naprawdę prawdopodobieństwo Dona, że ​​go nie ma, wynosi około 1%, podczas gdy moje wynosi 100%. Więc jeśli wybierzesz losowo pałkarza i melonika, prawdopodobieństwo, że ten melonik wyciągnie tego pałkarza tym razem jest bardziej podobne ((50% szansy, że wybrałeś Dona) * (1% szansy, że wydostanie się) + (50% szansy, że wybrałeś ja) * (100% szansy na wydostanie się) = 50,05%. Ale jeśli wybierzesz boisko losowo, jest 2% szansy, że się wydostanie. Musisz więc dokładnie przemyśleć, o którym z tych modeli próbkowania myślisz.


W każdym razie twoja propozycja nie jest szalona. Bardziej symbolicznie, niech będzie melonikiem, a pałkarzem; niech oznacza prawdopodobieństwo, że otrzymuje out. Więc mówisz:bmf(b,m)bm

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

Ma to pożądaną właściwość, która: podobnie jest spójne, jeśli weźmiesz środki tylko na lub .

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
bm

Zauważ, że w tym przypadku możemy przypisać Twoje założenie jest, że można obserwować i w miarę dobrze z danymi. Tak długo, jak (a) masz wystarczająco dużo gier [co robisz] i (b) wszyscy gracze grają ze sobą na stosunkowo podobnych częstotliwościach, to jest w porządku.

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
g(b)h(m)

Aby nieco rozwinąć kwestię (b): wyobraź sobie, że masz dane z wielu profesjonalnych gier i wielu gier, w które bawię się z przyjaciółmi. Jeśli nie ma nakładania się, może wyglądam naprawdę dobrze w porównaniu z moimi przyjaciółmi, więc może uważasz, że jestem znacznie lepszy niż najgorszy zawodowy gracz. Jest to oczywiście fałsz, ale nie masz żadnych danych, aby to obalić. Jeśli jednak trochę się nakładasz, gdy grałem kiedyś przeciwko profesjonalnemu graczowi i zostałem zniszczony, dane wspierają klasyfikację mnie i moich przyjaciół jako znacznie gorszych od profesjonalistów, ale twoja metoda nie uwzględniłaby tego. Technicznie problem polega na tym, że zakładasz, że masz dobrą próbkę np. , ale twój rozkład jest tendencyjny.Eb[f(b,m)]b

Oczywiście twoje dane nie będą wyglądać tak źle, ale w zależności od struktury ligi lub czegokolwiek, mogą zawierać pewne elementy tego problemu.


Możesz spróbować obejść to z innym podejściem. Proponowany model dla jest w rzeczywistości przykładem modeli faktoryzacji macierzy niskiej rangi, powszechnych w filtrowaniu grupowym , tak jak w przypadku problemu z Netflix . Tam wybierasz funkcję i która ma mieć wymiar , i reprezentujesz . Możesz zinterpretować jako skomplikowanie twojego modelu od pojedynczego wyniku „jakości” do posiadania wyników w wielu wymiarach: być może niektórzy melonicy radzą sobie lepiej z pewnymi typami odbijających. (Dokonano tego np. W przypadku gier NBA .)fg(b)h(m)rf(b,m)=g(b)Th(m)r>1

Powodem są tak zwane faktoryzacja macierzy, ponieważ jeśli utworzysz macierz z tyloma rzędami co kręgle i tyloma kolumnami jak nietoperze, możesz napisać to jakoF

[f(b1,m1)f(b1,m2)f(b1,mM)f(b2,m1)f(b2,m2)f(b2,mM)f(bN,m1)f(bN,m2)f(bN,mM)]F=[g(b1)g(bN)]G[h(m1)h(mM)]THT
gdzie uwzględniłeś macierz w jeden i jeden .N×MFN×rGM×rH

Oczywiście nie można bezpośrednio obserwowaćTypowym modelem jest przypadkowe obserwowanie hałaśliwych wpisów ; w twoim przypadku, masz obserwować losowanie z rozkładu dwumianowego z losową liczbę prób dla każdego wpisu .FFF

Możesz zbudować model prawdopodobieństwa, na przykład:

GikN(0,σG2)HjkN(0,σH2)Fij=GiTHjRijBinomial(nij,Fij)
gdzie obserwowane są i , oraz prawdopodobnie chcesz umieścić kilka hyperpriors nad / i zrobić wnioskowanie np Stana .nijRijσGσH

To nie jest idealny model: na przykład ignoruje to, że jest skorelowane z wynikami (jak wspomniałem w pierwszej części), a co ważniejsze, nie ogranicza do (prawdopodobnie użyłbyś logistycznego sigmoida lub podobnego do osiągnięcia tego). Powiązany artykuł z bardziej złożonymi priorytetami dla i (ale nie wykorzystujący prawdopodobieństwa dwumianowego) to: Salakhutdinov i Mnih, Bayesowskie probabilistyczne rozkładanie macierzy przy użyciu łańcucha Markowa Monte Carlo , ICML 2008. ( doi / autor pdf )nFij[0,1]GH

Dougal
źródło
1
@Ravi To było długie, prawdopodobnie niewyjaśnione, i nie znam twojego poziomu tła z tego rodzaju problemami. Ale możesz zadawać pytania na temat niejasnych części. Ponadto, ponieważ Twoje dane są jeden na jeden, możesz również rozważyć użycie powiedz Elo .
Dougal,
Dziękujemy za poświęcenie czasu na napisanie tej bardzo wysokiej jakości odpowiedzi. Wprawdzie znam tylko podstawowe statystyki, więc wiele z nich jest dla mnie nowością. Jednak pokazuje mi bardzo wyraźnie, co mam przeczytać, aby właściwie zrozumieć ten problem i właśnie tego chciałem. Mam nadzieję, że po kilku dniach (lub latach!) Studiów będę w stanie lepiej zrozumieć twoją odpowiedź.
Ravi,
Dziękuję Ci. Miałem pytanie o Elo. Ponieważ jest dość długi, otworzyłem nowe pytanie [tutaj] :( stats.stackexchange.com/questions/230518/… )
Ravi
0

Nie można wywnioskować prawidłowego prawdopodobieństwa, że ​​B zostanie wykluczony, biorąc pod uwagę, że A jest kręgielnią, jeśli A i B nigdy nie spotkali się na boisku na podstawie ich średnich z innymi graczami.

oW_
źródło
3
Chociaż możesz mieć rację co do krykieta, zdolność systemów ocen w innych grach zręcznościowych, takich jak szachy, do przewidywania wyników meczów między ludźmi, którzy nigdy nie rywalizowali, sugeruje coś innego.
whuber
2
@whuber Zgodził się - myślę, że będzie to tak samo prawdziwe w przypadku krykieta, jak prawie każda inna konkurencyjna interakcja. Krykieta nie że inaczej.
Glen_b