Będę uczyć statystyki jako asystent nauczyciela w drugiej połowie tego semestru dla studentów studiów licencjackich zorientowanych na CS. Większość uczniów, którzy wzięli udział w zajęciach, nie ma motywacji, aby uczyć się tego przedmiotu i wzięła go tylko z powodu głównych wymagań. Chcę, aby przedmiot był interesujący i użyteczny, a nie tylko zajęcia, które uczą się zdawać egzamin B +.
Jako doktorant z matematyki niewiele wiedziałem o stosowaniu w prawdziwym życiu. Chcę poprosić o kilka rzeczywistych zastosowań statystyk licencjackich. Przykłady, których szukam to te (w duchu), takie jak:
1) Przedstawienie twierdzenia o limicie centralnym jest przydatne w przypadku niektórych dużych próbek danych.
2) Podaj kontrprzykład, że centralne twierdzenie o limicie nie ma zastosowania (powiedzmy te, które występują po rozkładzie Cauchy'ego).
3) Pokazanie, jak działa testowanie hipotez na znanych przykładach z życia za pomocą testu Z, testu t lub czegoś takiego.
4) Wykazanie, w jaki sposób nadmierna lub błędna początkowa hipoteza może dać złe wyniki.
5) Wykazanie, w jaki sposób wartość p i przedział ufności działały w (dobrze znanych) rzeczywistych przypadkach i gdzie nie działają tak dobrze.
6) Podobnie błędy typu I, typu II, moc statystyczna, poziom odrzucenia itd.
Mój problem polega na tym, że chociaż mam wiele przykładów po stronie prawdopodobieństwa (rzut monetą, rzut kości, ruina hazardzisty, martingales, losowy spacer, paradoks trzech więźniów, problem monty hall, metody prawdopodobieństwa w projektowaniu algorytmu itp.), Nie wiem jak wiele kanonicznych przykładów po stronie statystyki. Mam na myśli poważne, interesujące przykłady, które mają jakąś wartość pedagogiczną i nie są bardzo sztucznie wymyślone, co wydaje się bardzo oderwane od prawdziwego życia. Nie chcę dawać uczniom fałszywego wrażenia, że test Z i test T są wszystkim. Ale ze względu na moje czyste zaplecze matematyczne nie znam wystarczającej liczby przykładów, aby klasa była dla nich interesująca i przydatna. Więc szukam pomocy.
Poziom mojego ucznia jest wokół rachunku I i rachunku II. Nie mogą nawet pokazać wariancji standardowej wartości normalnej z definicji 1, ponieważ nie wiedzą, jak ocenić jądro Gaussa. Więc nic nieco teoretycznego lub praktycznego obliczenia (jak rozkład hipergeometryczny, prawo arcsin w losowym marszu 1D) nie zadziała. Chcę pokazać przykłady, które mogą zrozumieć nie tylko „jak”, ale także „dlaczego”. W przeciwnym razie nie jestem pewien, czy udowodnię to, co powiedziałem przez zastraszanie.
źródło
Odpowiedzi:
Jednym dobrym sposobem może być zainstalowanie R ( http://www.r-project.org/ ) i wykorzystanie jego przykładów do nauczania. Dostęp do pomocy w języku R można uzyskać za pomocą poleceń „? T.test” itp. Na końcu każdego pliku pomocy znajdują się przykłady. Na przykład w t.test:
źródło
Sugeruję zastosowanie centralnego twierdzenia granicznego do wstępnego określenia wielkości próby i znalezienia odpowiedzi na pytania typu „czy wysłałem wystarczającą liczbę kwestionariuszy” itp.
http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf stanowi doskonały przykład praktycznego zastosowania twierdzenia o limicie centralnym. Strategią dydaktyczną może być:
Teoria
* wyjaśnij różnicę między rozkładem próbkowania a rozkładem wartości szacunkowych, np. przez „płaski” rozkład rzutu kością w porównaniu z rozkładem średniej liczby kostek N (użyj R lub pozwól uczniom nawet bawić się samymi rysunkami Excela -wartości rozkładów a rozkład średnich)
* pokaż oparte na formule obliczenia percentyli dla rozkładu średniej (gdy jesteś głęboko w matematyce, możesz chcieć uzyskać wzór) - ten punkt odpowiada slajdom 10-17 w prezentacji połączonej powyżej
a następnie (jak w slajdzie 20 z prezentacji połączonej powyżej):
B) wniosek
* pokaż, w jaki sposób centralne twierdzenie graniczne pomaga określić wielkości próby dla pożądanych dokładności w szacunkach średniej
Ta aplikacja B) jest, z mojego doświadczenia, tego, że statystycy nie oczekują od statystyki - odpowiadając na pytania typu „czy mam wystarczającą ilość danych?”
źródło
Ponieważ uczysz studentów CS, dobrym zastosowaniem Centralnego Twierdzenia Granicznego może być oszacowanie średniej z ogromnych zbiorów danych (tj.> 100 milionów rekordów). Może być pouczające, aby pokazać, że nie jest konieczne obliczanie średniej dla całego zestawu danych, ale zamiast tego próbkowanie z zestawu danych i użycie średniej z próbki do oszacowania średniej z całego zestawu danych / bazy danych. Możesz pójść o krok dalej, jeśli chcesz i symulować zestaw danych, który ma drastycznie różne wartości dla różnych podgrup. Następnie możesz poprosić uczniów o zbadanie próbkowania warstwowego w celu uzyskania dokładniejszych szacunków.
Ponownie, ponieważ są studenci CS, możesz chcieć zrobić trochę ładowania, aby uzyskać również przedziały ufności lub oszacować wariancje bardziej złożonych statystyk. Jest to ładne skrzyżowanie statystyki i komputera, ponieważ moim zdaniem może prowadzić do większego zainteresowania tematem.
źródło
Zacząłem od wpisania komentarza, ale stał się zbyt długi ...
Pamiętaj, że są studentami CS. Nie sprawisz im satysfakcji tak, jak lubisz matematyków (zσ algebry) lub biologa, lekarzy (z danymi biologicznymi lub medycznymi oraz klasyczne przepisy na testowanie starych dobrych dobrych hipotez zerowych). Jeśli masz wystarczającą swobodę decydowania o orientacji wykładu, jeśli chodzi o to, że uczą się podstawowych pojęć, radzę dokonać radykalnej zmiany orientacji. Oczywiście, jeśli inni nauczyciele chcą, aby mogli wykonywać niektóre predefiniowane zadania, jesteś trochę utknięty.
Moim zdaniem spodoba się im, jeśli przedstawisz wnioski z „uczącego się” punktu widzenia, a jeśli przedstawisz testy z „teorii decyzji” lub „klasyfikacji” - krótko mówiąc, powinny lubić algorytmy. Algorytmy Grok!
Spróbuj także znaleźć zestawy danych związane z CS; np. czas trwania połączeń i liczba żądań na jednostkę czasu do serwera HTML może pomóc zilustrować wiele pojęć.
Uwielbiają uczyć się technik symulacji. Generatory Lehmer są łatwe do wdrożenia. Pokaż, jak symulować inne dystrybucje, odwracając plik cdf. Jeśli się tym zajmujesz, pokaż im algorytm Ziggurat Marsaglii. Aha, a generator MWC256 firmy Marsaglia to mały klejnot. Testy Dieharda Marsaglii (testy uczciwości generatorów jednorodnych) mogą pomóc zilustrować wiele koncepcji prawdopodobieństwa i statystyki. Możesz nawet przedstawić teorię prawdopodobieństwa opartą na „(niezależnych) strumieniach losowych podwójnych, oups, mam na myśli reale” - to trochę bezczelne, ale może być świetne.
Pamiętaj też, że ranking strony oparty jest na łańcuchu Markowa. To nie jest łatwa sprawa, ale po prezentacji Arthura Engela (myślę, że odniesieniem jest probabilistyczny liczydło - jeśli czytasz francuski, ta książka jest absolutnie obowiązkowa ), możesz łatwo przedstawić kilka zabawkowych przykładów, które im się spodobają . Myślę, że studentka CS będzie bardziej lubiła łańcuchy Discrete Markovt -testuje, nawet jeśli wydaje się trudniejszy materiał (prezentacja Engela bardzo ułatwia).
Jeśli wystarczająco dobrze opanujesz swój przedmiot, nie wahaj się być oryginalny. Wykłady „klasyczne” są w porządku, gdy uczysz czegoś, czego nie znasz. Powodzenia, a jeśli wydasz jakieś notatki z wykładów, daj mi znać!
źródło
Mówisz, że to studenci informatyki. Jakie są ich zainteresowania, czy jest to głównie informatyka teoretyczna, czy studenci są głównie motywowani przygotowaniami do pracy? Możesz także powiedzieć nam, jaki jest opis kursu!
Niezależnie od odpowiedzi na te pytania możesz zacząć od praktycznych statystyk pojawiających się w kontekstach informatycznych, takich jak (na przykład) projektowanie stron internetowych. Ta strona od czasu do czasu ma pytania na ten temat, takie jak współczynniki konwersji w czasie lub /stats/96853/comparing-sales-person-conversion-rates lub AB Testowanie innych czynników oprócz współczynnika konwersji .
Jest tu wiele takich pytań, pozornie od osób zaangażowanych w projektowanie stron internetowych. Sytuacja jest taka, że masz stronę internetową (powiedz, że coś sprzedajesz). „Współczynnik konwersji”, jak rozumiem, to procent odwiedzających, którzy wykonują wybrane preferowane zadanie (takie jak zakup lub inny cel, jaki masz dla swoich użytkowników). Następnie, jako projektant stron internetowych, pytasz, czy układ strony wpływa na to zachowanie. Dlatego programujesz dwie (lub więcej) wersje strony internetowej, wybierasz losowo, którą wersję zaprezentować nowemu klientowi, i możesz w ten sposób porównać współczynniki konwersji, a na końcu wybrać wersję o najwyższym współczynniku konwersji.
Jest to problem projektowania eksperymentu porównawczego i potrzebujesz metod statystycznych do porównania wartości procentowych, a może bezpośrednio tabeli kontyngencji projektów względem konwersji / bez konwersji. Ten przykład może im pokazać, że statystyki mogą być dla nich przydatne w pracy związanej z tworzeniem stron internetowych! A od strony statystycznej otwiera się na wiele interesujących pytań na temat zasadności założeń ...
Aby połączyć się z tym, co mówisz o twierdzeniu o limicie centralnym, możesz zapytać, ile obserwacji potrzebujesz, zanim będziesz mógł traktować wartości procentowe jako normalnie rozłożone, i poproś, aby przestudiowali je za pomocą symulacji ...
Możesz przeszukać tę stronę w poszukiwaniu innych statystyk dotyczących pytań zadawanych przez typy programistów ...
źródło
Sugeruję, aby przed jakimikolwiek dobrymi przykładami lepiej skupić się na jasnych definicjach. Z mojego doświadczenia wynika, że prawdopodobieństwo i statystyki licencjackie to kurs pełen słów, których żaden z uczniów nie rozumie. W ramach eksperymentu zapytaj uczniów, którzy właśnie ukończyli kurs prawdopodobieństwa, czym jest „zmienna losowa”. Mogą dać ci przykłady, ale wątpię, aby większość podała ci jasną definicję tego. Czym dokładnie jest „prawdopodobieństwo”? Co to jest „dystrybucja”? Terminologia w statystyce jest jeszcze bardziej myląca. Większość książek licencjackich, które widziałem, wykonuje bardzo złą pracę, tłumacząc to. Przykłady i obliczenia są ładne, ale bez jasnych definicji nie są tak pomocne, jak mogłoby się wydawać. Mówiąc z własnego doświadczenia, właśnie dlatego nienawidziłem teorii prawdopodobieństwa jako licencjata. Mimo że moje zainteresowania były jak najbardziej oddalone od prawdopodobieństwa, teraz doceniam ten temat, ponieważ w końcu nauczyłem się, co tak naprawdę oznacza cała terminologia. Przepraszam, że nie jest to dokładnie to, o co prosiłeś, ale biorąc pod uwagę, że prowadzisz taką klasę, pomyślałem, że będzie to przydatna rada.
źródło