Kurs projektowania eksperymentalnego dla górników danych

11

Jestem informatykiem zajmującym się eksploracją danych. Nie jest tajemnicą stwierdzenie, że informatycy są dość słabi w systematycznym projektowaniu i ocenie eksperymentalnej - stosowanie wartości p i szacunków ufności uważa się za zaawansowane :).

Co chciałbym wiedzieć, czy istnieją dobre kursy / materiały do ​​nauczania informatyków o dobrym projekcie eksperymentalnym. Aby uczynić to bardziej szczegółowym, dodam następujące informacje:

  • Kurs powinien być skierowany do doktorantów, którzy mogą mieć uzasadnione zrozumienie prawdopodobieństwa, ale mają ograniczone doświadczenie w statystyce.
  • Kurs powinien koncentrować się na projektowaniu eksperymentalnym w „niekontrolowanych nienaturalnych warunkach”: innymi słowy, nie ma ani fizycznej podstawy prawdy gruntowej ani sposobu kontrolowania procesu gromadzenia danych (jak w przypadku ludzi). Oczywiście dobry kurs będzie koncentrował się na podstawach, ale powinien radzić sobie z tym scenariuszem w znaczący sposób.
  • Element obliczeniowy byłby bonusem, ale nie jest obowiązkowy. Mamy do czynienia z dużą ilością danych, ale w razie potrzeby sami możemy rozwiązać problemy obliczeniowe.
Suresh Venkatasubramanian
źródło
1
Wszystkie warunki opisanego eksperymentu przypominają mi testy A / B ... zbieg okoliczności? :)
steffen

Odpowiedzi:

5

[Noah Smith] [1] i [David Smith] [2] zaproponowali kurs w JHU z podobnymi motywacjami.

Zarys:

  • Wykład 1: wprowadzenie, przegląd statystyki, testowanie hipotez, próbkowanie
  • Wykład 2: statystyki zainteresowań: średnie, kwantyle, wariancja
  • Wykłady 3–4: eksperymenty z runtime i „przestrzenią”
  • Wykład 5: analiza danych eksploracyjnych
  • Wykład 6: modelowanie parametryczne, regresja i klasyfikacja
  • Wykład 7: Debugowanie statystyczne i profilowanie
  • Wykład 8: podsumowanie i przegląd

Aby uzyskać szczegółowe informacje, patrz Empirical Research Methods in Computer Science (600.408) http://www.cs.jhu.edu/~nasmith/erm/

Delip
źródło
3

Dobre pytanie. Zależy mi na odpowiedziach.

Ze statystycznego punktu widzenia należy zająć się dwiema kwestiami: większość statystyk i projektów statystycznych omawia statystykę małych próbek, a większość metod stosowanych przez inżynierów nie jest „nowoczesną” statystyką.

Nie mam bezpośredniej sugestii dla pierwszego problemu poza dobrym szkoleniem w eksploracji / eksploracji danych i znaczeniem statystycznie odmiennym w obliczu analizy statystyk populacji (lub dużej próby).

Jednak dwie interesujące książki dotyczące wprowadzenia studentów do statystyki pochodzą od Rand Wilcox (psycholog):

Wilcox, RR (2012). Wprowadzenie do niezawodnego szacowania i testowania hipotez, wydanie trzecie. Prasa akademicka.

Wilcox, RR (2010). Podstawy współczesnych metod statystycznych: znacząca poprawa potęgi i dokładności, Springer, wyd. 2.

Jason Morrison
źródło
2
Wydaje mi się, że pierwszy numer dotyczy badań i może nie mieć jeszcze „najlepszych praktyk”. Może się zdarzyć, że solidne wprowadzenie do podstawowych testów i wiercenia w problemie wielu hipotez może być najlepszym miejscem do rozpoczęcia.
Suresh Venkatasubramanian