Jak wyjaśnić testowanie hipotez dla nastolatków w mniej niż 10 minut?

18

Od ponad roku prowadzę godzinną lekcję „gustu dla statystyki”. Za każdym razem, gdy przychodzi inna grupa dzieci i daję im klasę.

Tematem zajęć jest to, że przeprowadzamy eksperyment, w którym 10 dzieci (lubiących pić coca-colę) otrzymuje dwa (nieoznaczone) kubki, jeden z coca-colą i jeden z pepsi. Dzieci proszone są o wykrycie na podstawie smaku i zapachu, który kubek zawiera napój coca-cola.

Następnie muszę im wyjaśnić, jak zdecydować, czy dzieci zgadują, czy naprawdę (lub przynajmniej ich wystarczająco dużo) naprawdę potrafią poczuć różnicę. Czy 10 na 10 sukcesów jest wystarczająco dobrych? co z 7 na 10?

Nawet po kilkukrotnym podaniu tej klasie (w różnych odmianach) nadal nie wydaje mi się, aby wiedzieć, jak zrealizować tę koncepcję w sposób, który uzyska większość uczniów.

Jeśli masz jakieś pomysły, w jaki sposób pojęcie testowania hipotezy, hipotezy zerowej, hipotezy alternatywnej, regionów odrzucania itp. Można wyjaśnić w prosty (!) I intuicyjny sposób - chciałbym wiedzieć.

Tal Galili
źródło
1
Czasami myślenie o „dlaczego” pomaga lepiej zrozumieć „jak”, dzięki czemu można sprawdzić stats.stackexchange.com/questions/6966/…
Tim
5
(+1) Myślę, że to zależy od twojej definicji 10 minut !
kardynał
1
Kilka tygodni temu postarałem się odpowiedzieć na to pytanie - lub przynajmniej jedno bardzo podobne - na stats.stackexchange.com/a/130772 . Czy ten wątek nie jest duplikatem tego?
whuber
1
@ cardinal - mam na myśli dosłownie 10 minut. Dla tego rodzaju tematu i dla osób bez tła - to jest BARDZO krótki czas. --------------- Drogi kurde - Uwielbiam twoją odpowiedź, ale byłoby wspaniale, gdyby uczniowie znali prawdopodobieństwo i związek między gęstością a powierzchnią. Są to pojęcia nauczane dla uczniów, ale nie dla uczniów szkół średnich. Nie chcę, aby w pełni rozumieli testowanie hipotez, ale trzymali go na tyle, aby mogli poczuć się przy podejmowaniu decyzji o znaczeniu każdego regionu odrzucenia.
Tal Galili
4
Dziękuję za wyjaśnienia, Tal. Nadal wydajesz się wskazywać, że inny wątek jest duplikatem twojego pytania, ale po prostu nie widziałeś tam odpowiedniej odpowiedzi. Dobrym sposobem na odróżnienie pytania od tego byłoby podanie szczegółowych wymagań dotyczących poziomu ekspozycji i tego, co możemy założyć, że publiczność wie, podobnie jak zacząłeś robić w swoim komentarzu.
whuber

Odpowiedzi:

10

Myślę, że powinieneś zacząć od pytania, co według nich naprawdę oznacza powiedzenie o osobie, że jest ona w stanie odróżnić coca-colę od pepsi. Co takiego osoba może zrobić, czego inni nie mogą zrobić?

Większość z nich nie będzie miała takiej definicji i nie będzie w stanie jej sformułować, jeśli zostanie o to poproszony. Jednak znaczenie tego wyrażenia jest tym, co daje nam statystyka, i to właśnie możesz przynieść ze swoją klasą „upodobania do statystyki”.

Jednym z punktów statystyki jest udzielenie dokładnej odpowiedzi na pytanie: „co to znaczy powiedzieć komuś, że on lub ona jest w stanie odróżnić coca-colę od pepsi”

Odpowiedź brzmi: on lub ona jest lepsza niż zgadywanka do klasyfikowania filiżanek w ślepym teście. Zgadywanka nie potrafi odróżnić, po prostu zgaduje cały czas. Zgadywanka jest dla nas użytecznym wynalazkiem, ponieważ wiemy, że nie ma takiej zdolności. Wyniki zgadywanki są przydatne, ponieważ pokazują, czego powinniśmy oczekiwać od kogoś, kto nie ma zdolności, którą testujemy.

Aby sprawdzić, czy dana osoba jest w stanie odróżnić coca-colę od pepsi, należy porównać jej klasyfikację filiżanek w ślepym teście z klasyfikacją, którą zrobiłaby zgadywanka. Tylko jeśli jest lepszy od zgadywanki, jest w stanie powiedzieć różnicę.

Jak zatem określasz, czy jeden wynik jest lepszy od innego? Co jeśli są prawie takie same?

Jeśli dwie osoby sklasyfikują niewielką liczbę filiżanek, to niesprawiedliwe jest twierdzenie, że jedna jest lepsza od drugiej, jeśli wyniki są prawie takie same. Być może zwycięzca miał dzisiaj szczęście i wyniki zostałyby odwrócone, gdyby jutro powtórzono zawody?

Jeśli mamy uzyskać wiarygodny wynik, nie może on opierać się na niewielkiej liczbie klasyfikacji, ponieważ to wynik może decydować o wyniku. Pamiętaj, że nie musisz być doskonały, aby mieć tę umiejętność, musisz być lepszy niż maszyna do zgadywania. W rzeczywistości, jeśli liczba klasyfikacji jest zbyt mała, nawet osoba, która zawsze poprawnie identyfikuje coca-colę, nie będzie w stanie wykazać, że jest lepsza niż zgadywanie. Na przykład, jeśli jest tylko jeden puchar do sklasyfikowania, nawet zgadywanka będzie miała 50 procent szans na sklasyfikowanie całkowicie poprawnie. To nie jest dobre, ponieważ oznacza to, że w 50 procentach prób błędnie stwierdzilibyśmy, że dobry identyfikator coca-coli nie jest lepszy niż zgadywanie. Bardzo niesprawiedliwie.

Im więcej pucharów jest do sklasyfikowania, tym więcej okazji do ujawnienia niezdolności zgadywania i więcej okazji do popisania się dobrym identyfikatorem coca-coli.

10 filiżanek może być dobrym miejscem na rozpoczęcie. Ile poprawnych odpowiedzi człowiek musi wtedy wykazać, że jest lepszy od maszyny?

Zapytaj ich, co by zgadli.

Następnie pozwól im korzystać z maszyny i dowiedzieć się, jak jest ona dobra, tzn. Niech wszyscy uczniowie wygenerują serię dziesięciu domysłów, np. za pomocą kości lub losowego generatora na smartfonie. Aby być pedagogicznym, powinieneś przygotować serię dziesięciu właściwych odpowiedzi, na podstawie których domniemywać należy domysły.

Zapisz wszystkie wyniki na tablicy. Wydrukuj posortowane wyniki na tablicy. Wyjaśnij, że człowiek musiałby być lepszy niż 95 procent tych wyników, zanim statystyk uzna swoją zdolność do odróżnienia coca-coli od pepsi. Narysuj linię oddzielającą 95% najgorszych wyników od 5% najlepszych wyników.

Następnie pozwól kilku uczniom sklasyfikować 10 filiżanek. Do tej pory uczniowie powinni wiedzieć, ile praw muszą mieć, aby udowodnić, że potrafią odróżnić.

Wszystko to nie jest jednak wykonalne w ciągu 10 minut.

Hans Ekbrand
źródło
2
Dzięki Hans. Lubię twoją odpowiedź z kilku powodów. 1) Ponieważ wprowadzasz do stołu nowy pomysł „zmuszania dzieci do rywalizacji z maszyną do zgadywania”. Przyznaję, że ta myśl przyszła mi do głowy, ale twoja odpowiedź utwierdziła mnie w przekonaniu, że może to zadziałać lepiej niż konkurowanie z teoretycznym rozkładem hipotezy zerowej p = 0,5. 2) Ponieważ rozumiesz, że nie wszystko, co proponujesz, było wykonalne w 10 minut :)
Tal Galili
2
Dzięki Tal. a) Myślę, że zgadywanie jest znacznie bardziej intuicyjne niż rozkład teoretyczny. b) Mam nadzieję, że poświęcisz więcej niż 10 minut na testowanie hipotez.
Hans Ekbrand
Dlaczego 95%, ha ha?
Mark L. Stone,
2

Praca z napojem brzmi zabawnie, a sprawdzenie, czy nastolatki rzeczywiście potrafią odróżnić napoje gazowane, ma sens, gdy masz wystarczającą wiedzę na temat testowania hipotez. Problemem może być to pytanie: „czy rzeczywiście potrafisz odróżnić napoje gazowane?” jest skomplikowane przez wiele innych rzeczy w umysłach nastolatków, takich jak „kto jest dobry, a kto jest zły w testowaniu napojów gazowanych?”, „czy rzeczywiście jest jakaś różnica między napojami gazowanymi?”

Nigdy nie uczyłem statystyk nastolatków, ale zawsze fantazjowałem na temat użycia obciążonej kości lub monety z tendencyjnością. Umrzyj bardziej interesujący, ale statystycznie trudniejszy. W przykładzie monety moneta jest albo nie jest uczciwa. Rzucanie monetami nie jest dobre. Nie ma decydującego znaczenia, czy chodzi o głowy czy ogony.

Jeśli przerzucimy monetę, która wygrywa 100 $, i pojawi się ona w głowie (wygrywasz!), Mógłbym powiedzieć: „Hej. Skąd mam wiedzieć, czy ta moneta jest uczciwa? Założę się, że sfałszowałeś konkurencję!”. Mówisz „Och tak? Udowodnij to”. Dość oczywistym rozwiązaniem jest przewracanie monety w kółko, aby sprawdzić, czy wychodzi więcej głów niż ogonów. Odwracamy go i pojawia się w głowie. „Ahha! Mówię. Do zobaczenia! Jest skłonny do głów!” I tak dalej.

Nie ma dobrych monet o tendencyjnym wyglądzie, ale kości o tendencyjnym charakterze - możesz je kupić na Amazon. Możesz zaoferować uczniom nagrodę, jeśli wygrają pewną liczbę rzutów. Ale wiesz, że wygrasz. Będą źli. Mówicie, OK, dam wam nagrodę, jeśli możecie udowodnić, że ta kość jest stronnicza, powiedzmy, z 95% pewnością.

Następnie przejdź do napoju gazowanego. Nagrodą może być nawet impreza z napojami! „Hej, zastanawiam się, czy potraficie odróżnić colę od pepsi…”

tim.farkas
źródło
6
Rzut monetą nie jest dobry. ” - po obejrzeniu głów Persi Diaconis do woli, myślę, że tak może być.
Glen_b
ha. teraz idę, postaraj się być w tym dobry!
tim.farkas
1
Diaconis jest statystykiem i magikiem. Są filmy z jego demonstracją (przewracanie głów, kiedy chce) na youtube.
Glen_b
Cześć Tim. Przynosisz fajne punkty, ale nie odnoszą się one bezpośrednio do mojego pytania. Biorąc pod uwagę, że twoi uczniowie poprawnie otrzymali x z 10 testów (test wybiera właściwą markę, na podstawie gustu) - jak możesz wyjaśnić, dlaczego uważasz, że są dobrzy / źli w podejmowaniu tej decyzji?
Tal Galili
Ponownie możesz użyć rzutu monetą. Jeśli zrobią jeden gust i dobrze to zrobią, nie jest to zbyt przekonujące, ponieważ jeśli rzucisz monetą, powinno to być „właściwe” 50% czasu! jeśli zrobisz to dobrze dwa razy, prawdopodobieństwo uzyskania tego przez przypadek jest takie samo, jak przewrócenie dwóch głów = .5 * .5 = .25. 3 razy z rzędu jest .125, 4 to .0625, 5 to .0313. Musisz wybrać pożądany poziom zaufania. czy 50% jest wystarczające? co około 25%? R. Fisher twierdzi, że 95% na pewno jest wystarczająco dobre i tego właśnie używa wielu naukowców. Jest to technicznie nazywane testem znakowym. Patrz poniżej.
tim.farkas
2

Rozważmy kogoś, kto ćwiczy cel z użyciem strzelby, która strzela seriami granulek w kierunku lufy.

Hipoteza zerowa: Jestem dobrym strzelcem, a moja lufa jest idealnie na celu. Nie w lewo, nie w prawo, ale wprost na to. Mój błąd to 0.

Alternatywna hipoteza: Jestem kiepskim strzelcem, a moja lufa jest poza celem. Po prostu w lewo lub w prawo od celu. Mój błąd to e> 0 lub e <0.

Ponieważ każdy pomiar ma pewien średni błąd (tj. Błąd standardowy), pomiar, który mówi „poza celem” jest możliwy, nawet jeśli strzelam prosto. Będę musiał nie „trafiać” mojego celu (w ogóle, nawet gdy każdy strzał jest serią / rozrzutem) określoną liczbę razy, zanim będziesz mógł nazwać mnie złym strzelcem i wybrać alternatywną hipotezę.

Maurice
źródło
1
Witamy w CV. Czy możesz odnieść swoje wyjaśnienia do wartości zerowej i alternatywnej? Być może jakaś dodatkowa dyskusja może pomóc w ich motywowaniu. Istnieją również wartości zerowe i alternatywne, dla których to wyjaśnienie nie byłoby odpowiednie, być może trzeba wspomnieć, jakiego rodzaju hipotezy byłoby to odpowiednie wyjaśnienie (np. Punkt zero, dwustronny)
Glen_b
1

Załóżmy, że dzieci nie potrafią odróżnić i decydują przypadkiem. Następnie każde dziecko ma 50% szansy na prawidłowe odgadnięcie. Oczekujesz (wartości oczekiwanej), że w tym przypadku 5 dzieci zrobi to dobrze, a 5 dzieci będzie w błędzie. Oczywiście, jak to jest przypadkiem, możliwe jest również, że 6 dzieci błądzi, a 4 ma rację, i tak dalej. Z drugiej strony, nawet jeśli dzieci potrafią dostrzec różnicę, możliwe jest, że przypadkiem jedno z nich się pomyli.

Intuicyjnie jasne jest, że jeśli dzieci domyślą się przez przypadek, jest mało prawdopodobne, aby wszystkie dzieci udzieliły prawidłowej odpowiedzi. W takim przypadku można raczej uwierzyć, że dzieci rzeczywiście mogą poczuć różnicę między obydwoma napojami. Innymi słowy, nie oczekujemy, że zostaną zaobserwowane nieprawdopodobne zdarzenia. Więc jeśli zaobserwujemy wydarzenie, które jest mało prawdopodobne w skrypcie 50-50, raczej wierzymy, że ten scenariusz jest fałszywy i dzieci mogą rozróżnić Coke i Pepsi.

αα0,00098αα=0,05

P.(wszystkie dzieci odgadły to dobrze)=0,00098P.(tylko jedno dziecko myli colę z Pepsi)=0,01074P.(tylko dwoje dzieci myli)=0,05468

To jest moment, w którym przeprowadzasz eksperyment. Zrób to dokładnie ze wszystkimi 10 uczniami, nawet jeśli właśnie obliczyłeś, że możesz przestać po drugim błędzie. Następnie zapisz wyniki i zachowaj je. Będziesz potrzebować wyników, jeśli chcesz im wyjaśnić metaanalizy.

(Nawiasem mówiąc, historyczny przykład dotyczy degustacji, jeśli mleko lub herbata zostały najpierw wlane do filiżanki. Pani degustująca herbatę.)

Horst Grünbusch
źródło
0

Eksperyment z koksowaniem dzieci jest dobrym przykładem wprowadzenia testu hipotezy, ponieważ jest to odpowiednik eksperymentu z degustacją herbaty przez kobiety. Jednak ocena tych eksperymentów nie jest bardzo intuicyjna, ponieważ hipoteza zerowa obejmuje rozkład dwumianowy przy p = 0,5 i nie jest prosta.

W moim zwykłym wstępie do testowania hipotez staram się przezwyciężyć tę wadę, używając tylko przypadku wszystkich sukcesów w rozkładzie dwumianowym, którego prawdopodobieństwo można obliczyć jako p ^ n nawet przez osoby, które nie wiedzą o prawdopodobieństwie dwumianowym.

W moim ulubionym przykładzie lubię pieczone kasztany i kupuję garść u sprzedawcy ulicznego. Dostaję je po obniżonej cenie, ponieważ pochodzą z dużej torby, w której 10% kasztanów ma dziurę robaka - tutaj staram się wyjaśnić, że torba została dobrze wymieszana, aby moja garść kasztanów była losową próbką kasztanów w torbie, a oświadczenie dostawcy oznacza, że ​​każdy kasztan ma niezależne prawdopodobieństwo 10% posiadania robaka.

Kiedy zaczynam cieszyć się pieczonymi kasztanami, biorę je jeden po drugim i sprawdzam, czy nie mają dziur w robaku, zanim je zjedzę.

Kiedy sprawdzam pierwszego kasztana, widzę dziurę robaka i zastanawiam się, czy sprzedawca mnie okłamał - wyjaśniam tutaj to zastanawianie się, które określa moją zerową hipotezę p = 10% i moją alternatywną hipotezę p> 10%, i umieszczam je na tablicy. Czy mam powody wątpić, że p = 10%, gdy mam jednego złego kasztana z jednego? Cóż, 10% osób wykonujących ten sam eksperyment uzyskałoby ten sam wynik, więc myślę, że po prostu miałem pecha.

Następnie biorę drugiego kasztana i ma on również dziurę robaka. Dwa z dwóch ma prawdopodobieństwo 1%, jeśli sprzedawca mnie nie okłamał. Mogłem mieć bardzo pecha, ale bardzo podejrzewam sprzedawcę.

Trzeci kasztan również ma dziurę robaka. Wydobycie trzech kasztanów z robakami z trzech nie byłoby niemożliwe, zakładając, że sprzedawca jest uczciwy, a p = 10%, ale byłoby to bardzo mało prawdopodobne (prawdopodobieństwo = 0,1%). Dlatego teraz mam silny powód, by wątpić w pracę sprzedawcy i zgłaszam reklamację i zwracam się o zwrot pieniędzy.

Oczywiście tego rodzaju kolejne testy mają pewne problemy teoretyczne, ale nie ma większego znaczenia, aby pokazać ideę testów hipotez. W rzeczywistości najważniejszą ideą, której nie ujęto w tym przykładzie, jest to, że w testach hipotez obliczamy prawdopodobieństwo uzyskanych wyników lub coś gorszego - w moim przykładzie uniknięto tego, uzyskując najgorszy możliwy wynik.

Użyłem tego przykładu kilkakrotnie z studentami pierwszego roku na uniwersytecie - którzy nadal są technicznie nastolatkami - ale myślę, że mógłby on również dobrze działać z młodszymi nastolatkami.

Pere
źródło