Powiedzmy, że mam przyjaciela (nazwijmy go „George”), który mówi, że może kontrolować rzut kostkami za pomocą swojego umysłu (tzn. Zwiększyć prawdopodobieństwo, że kości spadną na określoną liczbę, o której myśli).
Jak zaprojektować rygorystyczny naukowo test, aby ustalić, czy on może to zrobić? (Nie sądzę, żeby mógł, oczywiście, ale chcę, aby przed rozpoczęciem testu zgodził się na szczegóły testu w stylu Amazing Randi.) Chcę zmniejszyć (bardzo prawdopodobne) wymówki po teście że on wymyśli.
Oto co mam do tej pory:
Określ fizyczną technikę rzucania kostką (która kostka, puchar wytrząsacza, powierzchnia do lądowania itp.)
Zdefiniuj „sesję testową”, składającą się z X rzutów kości. To musi być wystarczająco małe, aby zrobić to za jednym razem, ale wystarczająco duże, aby określić (po analizie) w granicach 95% -99% pewności, czy kości wypadły uczciwie, czy faworyzowały jedną stronę
Przeprowadź sesje Y na wybranych kostkach (bez wpływu George'a), jako „kontrolę”, aby upewnić się, że kości same pokażą „uczciwe” wyniki
Przeprowadzaj sesje Z z George'em. Przed każdym rzuć oddzielną kością, aby określić, na jakiej liczbie George „skoncentruje się” podczas całej sesji.
Kompiluj i analizuj wyniki.
George wymyśla kilka wymówek dla swojego ponurego występu.
Więc moje pytania do ciebie:
Jakieś wady lub problemy z moją ogólną metodologią? Czy George mógłby coś sprzeciwić?
Czy powinienem używać D6? A może D20? Czy to ma znaczenie? Czy kość z większą liczbą twarzy wymagałaby więcej rzutów, aby uzyskać podobnie pewne wyniki? Czy wręcz przeciwnie? Wolę mniej rolek niż więcej, ze względów praktycznych :)
Jakie są rozsądne wartości dla X , Y i Z ? Nie są całkowicie niezwiązani; jeśli moja wybrana wartość X pozwala tylko na 95% pewności dla jednej sesji, wówczas 1 na 20 sesji może „zawieść”, nawet bez wpływu George'a
Jak zdefiniować „sukces” lub „porażkę” dla pojedynczej sesji? (Znalazłem to pytanie, które dotyczy szczegółów testu chi-kwadrat, więc myślę, że to moja metodologia oceny, ale jakie są rozsądne progi ufności?)
Jak zdefiniować „sukces” lub „porażkę” dla testu ogólnego? George może „wygrać” pojedynczą sesję przypadkiem, ale ile sesji Z musiałby przejść, aby przejść cały test?
Prawdopodobnie będę analizował te wyniki w arkuszu kalkulacyjnym MS Excel, jeśli to coś zmieni.
Odpowiedzi:
Poleciłbym przeanalizować to w następujący sposób:
Policz każdą rolę, w której George z powodzeniem przewiduje wynik jako sukces, a każdą inną jako porażkę. Następnie łatwo obliczyć prawdopodobieństwo sukcesu George'a i przedział ufności 95% lub 99%. Czy twierdzi, że potrafi przewidzieć wynik „dwa razy lepiej” niż losowe rzucanie kostką? Następnie:
H0: p> = 1/3
H1: p <1/3
(zakładając, że kostka 6-stronna).
Odtąd test hipotezy jest dość prosty. Ponadto można dość łatwo obliczyć moc a priori (nawet w czymś takim jak Excel). Wybierz liczbę rzutów (np. 10), a następnie stwórz tabelę z możliwymi sukcesami jako rzędy (0-10). Następnie, dla każdego sukcesu, oblicz prawdopodobieństwo, że odniesie on tyle sukcesów (gdyby tylko zgadywał, co zakładamy, że robi). Ponadto dla każdej wartości określ, czy doprowadziłoby to do odrzucenia lub przyjęcia wartości zerowej. Następnie, aby znaleźć moc, możesz po prostu zsumować wszystkie prawdopodobieństwa odrzucenia wartości null.
źródło
D20 będzie wymagało więcej rzutów dla tego samego poziomu istotności dla George'a, który z pewnością odniesie sukces, jeśli trzeba przeprowadzić test chi-kwadrat. Nie sądzę jednak, żebyś musiał przeprowadzić pełny test chis-kwadrat. Musisz tylko sprawdzić, czy kostka rzuci „wybraną” liczbą częściej niż przypadek. Po prostu użyłbym cdf dwumianu, aby obliczyć wartość p walcowania wybranej liczby częściej niż przypadek z jako parametr dwumianowy dla D6. Myślę, że łatwo jest ustalić liczbę podstawie wartości p potrzebnej do sukcesu George'a. Nie jestem nawet pewien, czy potrzebujesz sesji Z. Może po prostu uruchom jedną sesję dla każdej strony kości. Czy randomizacja wybranej strony ma znaczenie nawet dla hipotez, którymi jesteś zainteresowany?θ=16 X
źródło