Wersja tl; dr Jakie skuteczne strategie stosujesz, aby nauczyć rozkład próbkowania (na przykład średniej próbki) na wstępnym poziomie licencjackim?
Tło
We wrześniu będę prowadził kurs wprowadzający dla studentów drugiego roku nauk społecznych (głównie nauk politycznych i socjologii) z wykorzystaniem Podstawowej praktyki statystycznej Davida Moore'a. Będzie to już piąty raz, kiedy nauczam tego kursu, a jednym z problemów, który konsekwentnie miałem, jest to, że uczniowie naprawdę zmagali się z pojęciem rozkładu próbkowania . Zostało to uwzględnione jako tło do wnioskowania i następuje podstawowe wprowadzenie do prawdopodobieństwa, z którym nie wydają się mieć problemów po kilku początkowych czkawkach (i przez podstawowy mam na myśli podstawowy- w końcu wielu z tych uczniów zostało wybranych do konkretnego strumienia zajęć, ponieważ starali się unikać czegokolwiek, nawet z niejasną nutą „matematyki”). Sądzę, że prawdopodobnie 60% pozostawia kurs z minimalnym zrozumieniem, około 25% rozumie zasadę, ale nie ma powiązań z innymi pojęciami, a pozostałe 15% w pełni rozumie.
Główny problem
Wygląda na to, że studenci mają problem z aplikacją. Trudno jest wyjaśnić, na czym polega konkretna kwestia, niż powiedzieć, że po prostu tego nie rozumieją. Z ankiety, którą przeprowadziłem w ostatnim semestrze, oraz z odpowiedzi na egzaminy, myślę, że część trudności polega na pomieszaniu dwóch powiązanych i podobnych fraz dźwiękowych (rozkład próbek i rozkład próbek), więc nie używam wyrażenia „rozkład próbek” już jednak, ale z pewnością jest to coś, co wprawdzie na początku jest mylące, ale można je z łatwością uchwycić przy odrobinie wysiłku, a poza tym nie jest w stanie wyjaśnić ogólnego pomieszania koncepcji rozkładu próbkowania.
(Zdaję sobie sprawę, że to ja i moje nauczanie tu chodzi! Myślę jednak, że ignorowanie tej niewygodnej możliwości jest rozsądne, ponieważ niektórzy studenci zdają się to rozumieć i ogólnie wszyscy zdają się całkiem dobrze ...)
Co próbowałem
Musiałem kłócić się z administratorem studiów licencjackich w naszym dziale, aby wprowadzić obowiązkowe sesje w pracowni komputerowej, myśląc, że powtarzające się demonstracje mogą być pomocne (zanim zacząłem uczyć ten kurs, nie było żadnych obliczeń). Chociaż myślę, że to pomaga w ogólnym zrozumieniu materiału kursu w ogóle, nie sądzę, że pomogło to w tym konkretnym temacie.
Jednym z moich pomysłów jest po prostu nie nauczanie go wcale lub nie nadawanie mu zbytniej wagi, stanowisko popierane przez niektórych (np. Andrew Gelmana ). Nie uważam tego za szczególnie satysfakcjonujące, ponieważ ma powiew nauczania o najniższym wspólnym mianowniku, a co ważniejsze, zaprzecza silnym i zmotywowanym studentom, którzy chcą dowiedzieć się więcej o zastosowaniu statystycznym, naprawdę rozumiejąc, jak ważne są pojęcia (nie tylko rozkład próbkowania! ). Z drugiej strony mediana wydaje się na przykład chwytać wartości p, więc może i tak nie muszą rozumieć rozkładu próbkowania.
Pytanie
Jakie strategie stosujesz, aby nauczyć rozkład próbkowania? Wiem, że są dostępne materiały i dyskusje (np. Tutaj i tutaj oraz ten dokument, który otwiera plik PDF ), ale zastanawiam się, czy mogę uzyskać konkretne przykłady tego, co działa dla ludzi (lub, jak sądzę, nawet to, co nie działa więc będę wiedział, żeby tego nie próbować!). Mój plan teraz, kiedy planuję kurs na wrzesień, polega na podążaniu za radą Gelmana i „podkreśleniu” rozkładu próbkowania. Nauczę go, ale zapewniam studentów, że jest to rodzaj tematu tylko dla twojej wiadomości i nie pojawi się na egzaminie (chyba że jako pytanie dodatkowe ?!). Jestem jednak bardzo zainteresowany usłyszeniem innych podejść, z których korzystali ludzie.
źródło
Odpowiedzi:
Moim zdaniem rozkłady próbkowania są kluczową ideą statystyki 101. Równie dobrze możesz pominąć kurs, jak pominąć ten problem. Jednak jestem dobrze zaznajomiony z faktem, że studenci po prostu tego nie rozumieją, pozornie bez względu na to, co robisz. Mam szereg strategii. Może to zająć dużo czasu, ale zalecam pomijanie / skracanie innych tematów, aby upewnić się, że rozumieją rozkład próbkowania. Oto kilka porad:
Sys.sleep()
stwierdzenia, te przerwy dają mi chwilę na wyjaśnienie, co dzieje się na każdym etapie).źródło
windows(...)
zquartz(...)
). Twoja uwaga na temat wzmocnienia koncepcji przez cały semestr jest szczególnie pomocna. Myślę, że przestrzeganie tych wytycznych będzie naprawdę przydatne.Miałem trochę szczęścia, przypominając studentom, że rozkład próbkowania jest rozkładem statystyki testowej opartej na losowej próbce . Mam uczniów, którzy myślą, że to, co się stanie w samym procesie próbkowania, było stronnicze - koncentrując się na ekstremalnych przypadkach. Na przykład, jak wyglądałby „rozkład próbkowania”, gdyby nasz proces próbkowania zawsze wybierał ten sam (specjalny) podzbiór. Następnie zastanowiłbym się, jak wyglądałby „rozkład próbkowania”, gdyby nasz proces próbkowania wybrał tylko dwa określone (specjalne) podzbiory (każdy z prawdopodobieństwem 1/2). Można je dość łatwo obliczyć na podstawie średniej próby (szczególnie w przypadku szczególnych wyborów „specjalnych” dla populacji podstawowej).
Myślę, że dla niektórych (wyraźnie nie wszystkich) studentów wydaje się to pomóc im w pomyśle, że rozkład próbkowania może być bardzo różny od rozkładu populacji. Użyłem również centralnego przykładu twierdzenia o granicy, o którym wspominał Michael Chernick - zwłaszcza z rozkładami, które wyraźnie nie są normalne (symulacje naprawdę wydają się pomagać).
źródło
Zaczynam od nauki prawdopodobieństwa. Nie wchodzę w wiele formalnych definicji i reguł (po prostu za mało czasu), ale pokazuję prawdopodobieństwo poprzez symulację. Problem Monty Hall jest świetnym przykładem do użycia, pokazuję poprzez symulację (a następnie logikę), że strategia zmiany daje większe prawdopodobieństwo wygranej. Zaznaczam, że dzięki symulacji mogliśmy wielokrotnie zagrać w grę (bez ryzyka i nagrody), aby ocenić strategie, co pozwala nam wybrać lepszą strategię (jeśli kiedykolwiek będziemy w takiej sytuacji). Wybór lepszej strategii nie gwarantuje wygranej, ale daje nam większą szansę i pomaga wybierać między strategiami. Następnie zwracam uwagę, że jak to będzie miało zastosowanie w pozostałej części kursu, pomoże nam wybrać strategie, w których występuje element losowy,
Następnie, kiedy przedstawiam rozkład próbkowania, ponownie zaczynam od symulacji i mówię, że chcemy opracować strategie. Podobnie jak w przypadku problemu Monty Hall, w prawdziwym życiu będziemy mogli pobrać tylko 1 próbkę, ale możemy symulować kilka próbek, aby pomóc nam opracować strategię. Następnie pokazuję symulacje wielu próbek z tej samej populacji (w tym przypadku znanej populacji) i pokazuję relacje, których uczymy się z symulacji (histogram średnich próbek), tj. Średnie próbek skupione wokół prawdziwej średniej (średnia średnich jest średnia) , mniejsze odchylenie standardowe rozkładu próbkowania dla większych próbek, bardziej normalne dla większych próbek. Przez cały czas, gdy mówię o powtarzaniu idei symulacji w celu wyboru strategii, ten sam pomysł jak problem Monty Hall zastosowany teraz do próbek środków zamiast teleturniejów. Następnie pokazuję oficjalne zasady i mówię, że oprócz symulacji można je udowodnić matematycznie, ale nie będę przedstawiał dowodów całej klasie. Oferuję, że jeśli naprawdę chcą zobaczyć matematyczne dowody, mogą przyjść na godzinę urzędowania i pokażę im matematykę (nikt z klas wstępnych jeszcze mnie nie podjął).
Potem, kiedy dochodzimy do wniosku, mówię, że będziemy mogli pobrać tylko 1 próbkę w prawdziwym świecie, tak jak moglibyśmy zagrać w grę tylko raz (najwyżej), ale możemy użyć strategii, których nauczyliśmy się z symulacji wiele próbek w celu opracowania strategii (test Z, test t lub wzór CI), który da nam wybrane właściwości (szansa na poprawność). Podobnie jak w przypadku gry, nie wiemy, zanim zaczniemy, czy nasz końcowy wniosek będzie poprawny (i zwykle nadal nie wiemy później), ale wiemy z symulacji i rozkładu próbkowania, jakie jest długoterminowe prawdopodobieństwo ta strategia.
Czy 100% studentów ma doskonałe zrozumienie? nie, ale myślę, że więcej z nich rozumie, że możemy korzystać z symulacji i reguł matematycznych (że cieszą się, że nie muszą patrzeć, po prostu zaufaj książce / instruktorowi), aby wybrać strategię / formułę, która ma pożądane właściwości.
źródło
To bardzo ważna i przemyślana kwestia z twojej strony. Myślę, że koncepcja rozkładu próbkowania jest różna dla zrozumienia wnioskowania i zdecydowanie powinna być nauczana.
Uczyłem wielu kursów statystyki wprowadzającej, szczególnie w biostatystyce. Uczę koncepcji dystrybucji próbkowania i mam podejście, które uważam za dobre, ale tak naprawdę nie mam dobrych informacji zwrotnych, aby określić, jak odnoszę sukcesy z nimi. W każdym razie tutaj jest to, co robię.
Najpierw próbuję podać prostą definicję. Rozkład próbkowania to rozkład, jaki miałaby statystyka testowa, gdyby proces próbkowania był powtarzany wiele razy. Zależy od rozkładu populacji, z którego zakłada się, że dane są generowane.
Chociaż myślę, że jest to tak prosta definicja, jaką mogę podać, zdaję sobie sprawę, że nie jest to bardzo proste i zrozumienie pojęcia nie przyjdzie od razu w większości przypadków. Kontynuuj to, podając prosty przykład, który wzmacnia to, co mówi się w definicji.
Przykładem, którego chciałbym użyć, jest próbka o wielkości n, która jest niezależna i identycznie rozłożona jako rozkład normalny ze średnią μ i wariancją σ a następnie średnią próbki, która jest używana jako oszacowanie punktowe dla średniej lub użycie do utworzenia statystyki testowej ponieważ średnia ma rozkład próbkowania, który jest normalny ze średnią μ i wariancją σ / n.22 2
Następnie podążę za tym ważnym zastosowaniem, centralnym twierdzeniem o granicy. Mówiąc najprościej, centralne twierdzenie graniczne mówi, że dla wielu rozkładów, które nie są normalne, rozkład próbek dla średniej próbki będzie zbliżony do rozkładu normalnego, gdy wielkość próbki n jest duża. Aby to zilustrować, weź rozkłady takie jak jednolite (dobrze byłoby przyjrzeć się rozkładem bimodalnym) i pokaż, jak wygląda rozkład próbkowania dla średniej dla próbek wielkości 3, 4, 5, 10 i 100. Student może zobaczyć, jak kształt rozkładu zmienia się z czegoś, co wcale nie wygląda normalnie dla małego n, na coś, co wygląda bardzo podobnie do rozkładu normalnego dla dużego n.
Aby przekonać ucznia, że te rozkłady próbkowania rzeczywiście mają te kształty, uczniowie przeprowadzają symulacje generujące wiele próbek o różnych rozmiarach i obliczają średnie próbek. Następnie niech wygenerują histogramy dla tych oszacowań średniej. Sugerowałbym także zastosowanie fizycznej demonstracji pokazującej, jak to działa przy użyciu karty quincunx. Robiąc to, wskazujesz, w jaki sposób urządzenie generuje próbki sumy niezależnych prób Bernoulliego, w których prawdopodobieństwo przejścia w lewo lub w prawo na każdym poziomie wynosi 1/2. Wynikowe stosy na dole reprezentują histogram dla tego rozkładu próbkowania (dwumianowy), a jego kształt może wyglądać w przybliżeniu normalnie po tym, jak duża liczba kulek wyląduje na dnie kwinkiersu,
źródło
Myślę, że dobrze byłoby umieścić „populację” liczb w torbie (na przykład od 1-10). Możesz tworzyć własne kafelki lub używać monet, kart do gry itp.
Poproś uczniów, aby usiedli w grupach (5 lub więcej) i każdy wybrał numer z torby. Każda grupa następnie oblicza średnią wartość dla swojej grupy. Powiedz im, że wcześniej obliczyłeś średnią populacji, wykreśl ją na histogramie i poproś członka każdej grupy, aby przyszedł i wykreśl średnią próbną na historgramie wokół tego. Niech kilka razy wykonają tę ćwiczenie, aby „zbudować histogram”.
Będziesz wtedy w stanie graficznie pokazać różnice w średnich próbkach wokół średniej populacji. Opracuj zmienność średnich próbek w porównaniu ze średnią populacji. Myślę, że uczeń wyraźnie pamięta, że wykonał tak praktyczne ćwiczenie, a koncepcja zmienności próbkowania wróci do nich łatwiej. Może to zabrzmieć trochę dziecinnie, ale uczniowie czasami po prostu chcą zrobić coś aktywnego ... nie ma wielu okazji, aby to zrobić w statystykach.
źródło