Wielu fanów / graczy koszykówki uważa, że po kilku rzutach z rzędu, bardziej prawdopodobne jest, że trafi następny. To jest czasami nazywane gorącą ręką.
Zaczynając (jak sądzę) od Gilovicha, Mallone i Tversky'ego (1985) , „udowodniono”, że w rzeczywistości był to błąd. Nawet jeśli oddano kilka strzałów z rzędu, następne trafienie nie będzie bardziej prawdopodobne, niż wskazywałby to średni procent strzelania.
Miller i Sanjurjo (2015) twierdzą, że gorąca ręka faktycznie istnieje, a poprzedni badacze po prostu padli ofiarą dość podstawowego błędu statystycznego. Ich argument jest mniej więcej taki:
Rzuć monetą cztery razy. Oblicz prawdopodobieństwo, że H podąża za H. Aby podać kilka przykładów: HHTT miałoby prawdopodobieństwo 1/2, HTHT miałoby prawdopodobieństwo 0/2, TTHH miałoby prawdopodobieństwo 0/1 1/1, a zarówno TTTT, jak i TTTH byłyby NA
Punktem wyjścia Millera i Sanjurjo jest to, że oczekiwana wartość tego prawdopodobieństwa nie wynosi 0,5, ale ≈0,4. Błąd popełniony przez poprzednich badaczy polegał na niepoprawnym założeniu, że oczekiwana wartość tego prawdopodobieństwa wynosi 0,5. Jeśli więc na przykład ci poprzedni badacze przeprowadzili powyższy eksperyment polegający na rzucie monetą i stwierdzili, że średnie prawdopodobieństwo wynosi 0,497, błędnie stwierdzili, że nie było dowodów na gorącą rękę (nie różniącą się znacząco od 0,5), podczas gdy w rzeczywistości było bardzo mocne dowody gorącej ręki (znacząco różne od 0,4).
Moje pytanie brzmi: czy Miller i Sanjurjo mają rację, że poprzedni badacze nie wykryli gorącej ręki tylko z powodu tego błędu? Przejrzałem tylko jeden lub dwa artykuły na ten temat, więc chciałem uzyskać potwierdzenie od kogoś tutaj, kto mógłby lepiej poznać tę literaturę. Wydaje się to zaskakująco głupim błędem, który utrzymywał się przez trzy dekady lub dłużej.
źródło
Odpowiedzi:
(Ta odpowiedź została całkowicie przepisana dla większej przejrzystości i czytelności w lipcu 2017 r.)
Rzuć monetą 100 razy z rzędu.
Zbadaj klapkę natychmiast po serii trzech ogonów. Niech p ( H | 3 T ) będzie proporcja monety koziołki po każdym passę trzech ogonach z rzędu, które są głowice. Podobnie, niech p ( H | 3 H ) jako część rzut monetą po każdym pasmem trzech głowic w rzędzie, które są głowice. ( Przykład na dole tej odpowiedzi. )p^( H| 3t) p^( H| 3godz)
Niech .x : = p^( H| 3godz) - p^( H| 3t)
Jeśli rzuty monetą są identyczne, wówczas „oczywiście” w wielu sekwencjach 100 rzutów monetą,
(1) Oczekuje się, że zdarza się tak często, jak x < 0 .x > 0 x < 0
(2) .mi( X) = 0
Generujemy milion sekwencji po 100 rzutów monetą i otrzymujemy następujące dwa wyniki:
(I) zdarza się mniej więcej tak często, jak x < 0 .x > 0 x< 0
(II) ( ˉ x to średnia x w milionach sekwencji).x¯≈ 0 x¯ x
W związku z tym dochodzimy do wniosku, że rzuty monetą są rzeczywiście iid i nie ma dowodów na gorącą rękę. Tak właśnie zrobił GVT (1985) (ale ze strzałami do koszykówki zamiast rzutu monetą). I tak doszli do wniosku, że gorąca ręka nie istnieje.
Poncz: Szokująco, (1) i (2) są niepoprawne. Jeśli rzuty monetą są identyczne, to powinno tak być
(Z poprawką 1) występuje tylko w około 37% przypadków, podczas gdy x < 0 występuje w około 60% przypadków. (W pozostałych 3% przypadków x = 0 lub x jest niezdefiniowany - albo dlatego, że nie było serii 3H lub serii 3T na 100 rzutów.)x> 0 x< 0 x = 0 x
(Z korekcją 2) .mi( X) ≈ - 0,08
Intuicja (lub kontr-intuicja) jest podobna do tej w kilku innych znanych łamigłówkach prawdopodobieństwa: problem Monty Hall, problem dwóch chłopców i zasada ograniczonego wyboru (w brydżu gry karcianej). Ta odpowiedź jest już wystarczająco długa, więc pominę wyjaśnienie tej intuicji.
Tak więc same wyniki (I) i (II) uzyskane przez GVT (1985) są faktycznie mocnymi dowodami na korzyść gorącej ręki. Właśnie to pokazali Miller i Sanjurjo (2015).
Dalsza analiza tabeli 4 GVT.
Wielu (np. @ Scerwin poniżej) - bez zawracania sobie głowy czytaniem GVT (1985) - wyraziło niedowierzanie, że każdy „wyszkolony statystyk kiedykolwiek” przyjąłby średnie w tym kontekście.
Ale dokładnie tak postąpił GVT (1985) w tabeli 4. Patrz tabela 4, kolumny 2-4 i 5-6, dolny wiersz. Odkryli, że uśredniono wyniki dla 26 graczy,
Ale jeśli zamiast wziąć średnie średnie (ruch uważany przez niektórych za niewiarygodnie głupi), ponownie dokonamy ich analizy i zsumujemy 26 graczy (100 strzałów dla każdego, z pewnymi wyjątkami), otrzymamy następującą tabelę średnich ważonych.
Tabela mówi na przykład, że 26 graczy wykonało w sumie 2515 zdjęć, z których wykonano 1175 lub 46,72%.
A z 400 przypadków, w których gracz spudłował 3 z rzędu, po 161 lub 40,25% natychmiast nastąpiło trafienie. Z 313 przypadków, w których gracz trafił 3 z rzędu, 179 lub 57,19% natychmiast spowodowało trafienie.
Powyższe średnie ważone wydają się być mocnym dowodem na korzyść gorącej ręki.
Pamiętaj, że eksperyment strzelania został skonfigurowany tak, aby każdy gracz strzelał z miejsca, w którym ustalono, że może wykonać około 50% swoich strzałów.
(Uwaga: dość „dziwnie”, w Tabeli 1 do bardzo podobnej analizy podczas strzelania Sixers w grze, GVT zamiast tego przedstawiają średnie ważone. Więc dlaczego nie zrobili tego samego dla Tabeli 4? Domyślam się, że oni z pewnością obliczył średnie ważone dla Tabeli 4 - liczby, które przedstawiłem powyżej, nie spodobały się temu, co zobaczyły, i postanowiłem je stłumić. Takie zachowanie jest niestety równe kursowi akademickiemu).
Tabela 4 GVT PS (1985) zawiera kilka błędów. Zauważyłem co najmniej dwa błędy zaokrąglania. Również w przypadku gracza 10 wartości w nawiasach w kolumnach 4 i 6 nie sumują się o jeden mniej niż w kolumnie 5 (w przeciwieństwie do uwagi na dole). Skontaktowałem się z Gilovichem (Tversky nie żyje, a Vallone nie jestem tego pewien), ale niestety nie ma już oryginalnych sekwencji trafień i chybień. Tabela 4 to wszystko, co mamy.
źródło
(Zastrzeżenie: Nie znam tej literatury.) Wydaje mi się, że Miller i Sanjurjo mają uzasadnioną krytykę określonej miary statystycznej. Nie wiem, czy należy to uznać za unieważniające wszystkie wcześniejsze prace nad efektem gorącej ręki, ponieważ koncentrują się one tylko na tym konkretnym środku.
Miarą jest
źródło
Żaden z dwóch artykułów nie jest wystarczająco jasny w odniesieniu do ich zastosowania statystyk, więc w tej odpowiedzi postaram się wyjaśnić.
Gilovich, Mallone i Tversky (1985) w swoim streszczeniu definiują „efekt gorącej dłoni” w następujący sposób:
gdzie dla zwięzłości rozumie się, że dany strzał jest tym, który następuje bezpośrednio po kolejnych trafieniach lub chybieniach. Są to teoretyczne prawdopodobieństwa warunkowe (tj. Stałe), a nie warunkowe względne częstotliwości empiryczne.
Dlatego, jeśli występuje problem z Gilovichem i in. papier, nie jest to definicja Hot-Hand, nie jest sformułowanie hipotezy zerowej, nie jest to wybór statystyki, która ma być zastosowana: jest to ważność wartości krytycznych użytych do wykonania testów ( i tak z domyślnego założenia dystrybucyjnego), jeśli rzeczywiście skończony, mały próbka (pod hipotezą zerową) jest wyraźnie nieśrodkowany na zero, a także asymetryczny.
W takich przypadkach zwykle uzyskuje się poprzez symulację specjalnych wartości krytycznych w celu przeprowadzenia testu (pamiętaj na przykład o specjalnych wartościach krytycznych dla testu Dickeya-Fullera dla pierwiastka). Nie dostrzegłem takiego podejścia w pracy Millera-Sanjurjo, zamiast tego dokonują one „korekty średniego odchylenia” i stwierdziłem, że po tej korekcie wnioski z testu są odwrócone. Nie jestem pewien, czy to jest właściwa droga.
źródło
Moim zdaniem Miller i Sanjurjo po prostu nieprawidłowo obliczyli częstotliwości względne w tabeli 1. Ich tabela jest pokazana poniżej z dodanymi dwoma nowymi kolumnami, które zliczają liczbę podsekwencji HH i HT, które występują w każdej sekwencji 4 rzutów monetą. Aby uzyskać pożądane prawdopodobieństwo warunkowe p (H | H), należy zsumować te liczby N (HH) i N (HT), a następnie podzielić, jak pokazano poniżej. Wykonanie tego daje p (H | H) = 0,5, zgodnie z oczekiwaniami. Z jakiegoś powodu Miller i Sanjurjo najpierw obliczyli częstotliwość względną dla każdej sekwencji, a następnie uśrednili dla sekwencji. Po prostu źle.
źródło
W dowolnej zaobserwowanej sekwencji „brak” ostatniego warunku w tym sensie, że później nie ma żadnej wartości. Autorzy zajmują się tym, po prostu ignorując przypadki, w których tak się dzieje, mówiąc, że są niezdefiniowane. Jeśli seria jest krótka, wybór ten będzie miał oczywisty wpływ na obliczenia. Rycina 1 to dobra ilustracja tego pomysłu.
źródło
Zamienię komentarz, który napisałem powyżej, na odpowiedź i twierdzę, że odpowiedź na oryginalne pytanie brzmi: oryginalne dokumenty są poprawne. Autorzy artykułu z 2015 r. Wyrzucają sekwencje, które logicznie należy uwzględnić w ich analizie, jak to opisuję w komentarzu, a zatem wprowadzają stronniczość, która popiera ich twierdzenia. Świat działa tak, jak powinien.
Dodatek w odpowiedzi na komentarz: Patrzymy na tabelę 1 w artykule. Widzimy, że wyrzucamy 4 wartości z ostatniej kolumny, więc aby uzyskać oczekiwaną różnicę, uśredniamy tylko 12 z 16 sekwencji. Jeśli spojrzymy na te prawdopodobieństwa jako częstotliwości i powiedzmy, dla częstotliwości TTTT pierwszej linii, jaka jest częstotliwość, z jaką głowa podąża za głową, to logicznie rzecz biorąc, zawsze tak się dzieje i powinniśmy umieścić 1 na p (H, H ), a nie myślnik. Robimy to dla pozostałych trzech sekwencji, które wyrzuciliśmy i dochodzimy do wniosku, że oczekiwana wartość różnicy wynosi 0, a nie -33. Nie możemy po prostu wyrzucić takich danych, gdy istnieje jasna logiczna interpretacja danych.
Zauważ, że aby zniknąć dryf, musimy poprawnie obliczyć prawdopodobieństwa, czego nie zrobiono w pracy. Prawdopodobieństwa w tabeli są określane jako „prawdopodobieństwo, że głowa podąża za ogonem, w tej podanej sekwencji czterech rzutów”. I widzimy, że w wierszu TTTH powinniśmy wierzyć, że prawdopodobieństwo wynosi 1/3. To nie jest. W rzędzie są cztery rzuty, a jednym z czterech rzutów w tym rzędzie jest zdarzenie „głowa podąża za ogonem”. Prawdopodobieństwo wynosi 1/4. Więc oblicz poprawnie prawdopodobieństwa i użyj wszystkich wierszy, a otrzymasz odpowiedź, która została zaakceptowana przez 30 lat.
źródło