Żądanie referencyjne: Statystyka klasyczna dla pracujących naukowców zajmujących się danymi

10

Jestem pracującym naukowcem danych z dużym doświadczeniem w regresji, innych algorytmach uczenia maszynowego i programowaniu (zarówno w zakresie analizy danych, jak i ogólnego opracowywania oprogramowania). Większość mojego życia zawodowego koncentruje się na budowaniu modeli w celu zapewnienia dokładności predykcyjnej (praca przy różnych ograniczeniach biznesowych) oraz budowaniu potoków danych w celu wspierania mojej własnej (i innych) pracy.

Nie mam formalnego wykształcenia statystycznego, moje wykształcenie uniwersyteckie koncentruje się na czystej matematyce. Jako takie przegapiły naukę wielu klasycznych tematów, szczególnie różnych popularnych testów hipotez i technik wnioskowania.

Czy są jakieś odniesienia do tych tematów, które byłyby odpowiednie dla kogoś z moim pochodzeniem i poziomem doświadczenia? Potrafię poradzić sobie (i docenić) rygory matematyczne, a także cieszyć się perspektywami algorytmicznymi. Zwykle lubię odniesienia, które oferują ćwiczenia prowadzone przez czytelnika, z naciskiem na matematykę i (lub) programowanie.

Matthew Drury
źródło
2
Jako kolejny Matt z matematyki, z luką w wiedzy statystycznej, mogę odnieść się! Czy są jakieś szczególne obszary / aplikacje, którymi jesteś zainteresowany? Przy klasycznych statystykach należy zwrócić uwagę na to, jakie założenia są stosowane.
GeoMatt22,
5
Jest tu kilka dobrych referencji: mathoverflow.net/questions/31655/statistics-for-mathematicians
Alex R.,

Odpowiedzi:

3

All of Statistics” Larry'ego Wassermana to fajna książka, dzięki której można się dowiedzieć, jak wygląda statystyka matematyki. To była pierwsza książka o statystyce matematycznej, której sam użyłem. Obejmuje klasykę, taką jak testowanie hipotez i szacowanie maksymalnego prawdopodobieństwa, ale zawiera także wiele ostatnio opracowanych, ale równie ważnych tematów, jak ładowanie systemu. Wasserman zawsze ma jedną stopę w statystykach, a drugą stopę w uczeniu maszynowym, co moim zdaniem powinni robić wszyscy współcześni analitycy danych; jeśli znasz tylko jedno z tych dwóch pól, będziesz bardzo tęsknił. Ponadto książka zawiera wiele dobrych ćwiczeń.

Jeśli masz doświadczenie w prawdziwej analizie i chcesz surowych, nieoszlifowanych rzeczy, przez które rozumiem teoretyczne podejście do prawdopodobieństwa i statystyki, spróbuj Teorii statystyki Marka J. Schervisha . Schervish to połowa DeGroot i Schervish, których mniej techniczna książka „ Prawdopodobieństwo i statystyka” jest obecnie prawdopodobnie najpopularniejszą książką na temat statystyki matematycznej. Teoria statystyki to pomocna, gadatliwa książka na temat zwykle zarezerwowany dla doktorantów, którzy powinni wykonywać całą pracę sami. Szczerze mówiąc, uważałem tę książkę za bardzo trudną (choć nie tak trudną jak statystyki matematyczne Jun Shao) i w końcu poczułem, że ogromny wysiłek wymagany do opanowania nie był dobrym wykorzystaniem mojego czasu jako analityka danych aplikacyjnych. Ale nadal wiele się nauczyłem i dobrze zrozumiałem, czym jest teoria miary i jak można ją wykorzystać do usunięcia owłosionych teoretycznych trudności, które pojawiają się w bardziej naiwnym tradycyjnym podejściu do teorii prawdopodobieństwa. Doszedłem również do lepszego docenienia podobieństw i różnic w zakresie wymienialności i niezależności.

Kodiolog
źródło
2

Poza bardzo dobrymi sugestiami Kodiologa (+1) zalecałbym również przyjrzenie się tematowi badań obserwacyjnych . Myślę, że jest to bardzo niedoceniana dziedzina między badaczami danych, mimo że w wielu przypadkach analizowane dane mają charakter obserwacyjny. Myślę, że dzieje się tak, ponieważ większość bibliografii (szczególnie w biostatystyce) zakłada, że ​​istnieje już co najmniej quasi-eksperymentalny projekt. Książki Paula Rosenbauma Badania obserwacyjne i projektowanie badań obserwacyjnych są jednymi z najczęściej używanych odniesień.

usεr11852
źródło