Od czego zacząć od statystyk dla doświadczonego programisty

47

W pierwszej połowie 2015 r. Ukończyłem kurs Machine Learning (autor: Andrew Ng, WIELKI kurs). I nauczył się podstaw uczenia maszynowego (regresja liniowa, regresja logistyczna, SVM, sieci neuronowe ...)

Jestem również programistą od 10 lat, więc nauka nowego języka programowania nie byłaby problemem.

Ostatnio zacząłem uczyć się języka R w celu wdrożenia algorytmów uczenia maszynowego.

Zdałem sobie jednak sprawę, że jeśli chcę się uczyć, potrzebuję bardziej formalnej wiedzy statystycznej, obecnie mam nieformalną wiedzę na jej temat, ale tak ograniczoną, że na przykład nie jestem w stanie właściwie określić, który z kilku modeli liniowych byłoby lepiej (zwykle używam do tego kwadratu R, ale najwyraźniej nie jest to zbyt dobry pomysł).

Wydaje mi się więc oczywiste, że muszę nauczyć się podstaw statystyki (studiowałem to na uniwersytecie, ale większość z nich zapomniałem), gdzie powinienem się nauczyć, proszę zauważyć, że tak naprawdę nie potrzebuję w pełni kompleksowego kursu, po prostu coś że w ciągu miesiąca pozwala mi to wiedzieć wystarczająco dużo, aby móc być chętnym i dowiedzieć się więcej :).

Do tej pory czytałem o „ statystykach bez łez ”, jakieś inne sugestie?

Juan Antonio Gomez Moriano
źródło
2
Dla statystyk: Casella, G. i RL Berger (2002): Statistics Inference, Duxbury. W przypadku ekonometrii: Hayashi, F. (2000): Econometrics, Princeton University Press. Z innego punktu widzenia: stats.stackexchange.com/questions/91863/…
Guilherme Salomé
Dodałem referencestag. Może chcesz skanować przez pierwszą stronę hitów na ten temat.
Glen_b
3
Nie widzę, że należy to zamknąć. Widzę jednak argument przemawiający za CW.
gung - Przywróć Monikę
2
Z mojego punktu widzenia wiedza będzie tendencyjna, jeśli zaczniesz uczyć się statystyki bez wcześniejszej znajomości teorii prawdopodobieństwa.
Metariat
2
Chciałbym dodać jedno słowo ostrzegawcze. Jestem pewien, że już to rozumiesz, ale chcę to powiedzieć. Jestem doktorantem. Z moim stopniem doktora planuję praktykę chorób wewnętrznych. Dla mojego doktora studiuję biostatystykę. Chcę, abyście wiedzieli, że nie można uzyskać mistrzostwa w statystyce w ciągu 1 miesiąca, niż mistrzostwa w medycynie w ciągu jednego miesiąca. W żadnym wypadku nie staram się zniechęcać do nauki statystyk. Wręcz przeciwnie, mam nadzieję, że doskonale to rozumiesz. Ale po prostu zrozum, że nie jest to mniej ważne niż na przykład chęć bycia programistą.
Vincent Laufer

Odpowiedzi:

26

Proponuję ci podstawową mapę drogową na temat tego, jak to zrobić:

Premia:

Wspaniałą stroną takich map drogowych jest Metacademy , którą osobiście poręczyłbym za jedno z najlepszych zasobów Data Science w sieci.

Gitxiv to kolejna piękna strona, która łączy prace badawcze Arxiv dotyczące Data Science z odpowiednimi implementacjami / bibliotekami typu open source.

Dawny33
źródło
2
OP przeszedł już kurs Nga, co skłoniło go do postawienia pytania w pierwszej kolejności.
Aksakal
4
@Aksakal Zauważyłem to. Ale uwzględniłem to jako część mapy drogowej. Naprawdę nie zrobiłbym różnicy, więc pomyślałem, że włączenie tego pomogłoby innym, którzy czytają ten post.
Dawny33
12

Czy sprawdziłeś Think Stats lub Think Bayes - są to zarówno (bezpłatne) statystyki książek skierowane do programistów, z dużą ilością kodu Python.

Ponadto, jeśli jesteś zainteresowany w nauce R następnie CRAN ma wiele (wolnych) pliki PDF, które może chcesz sprawdzić, jak Wstęp do prawdopodobieństwa i statystyki wykorzystując R . Istnieje również kurs Coursera, w którym używa się języka R, który naprawdę kocha wiele osób (używają tego podręcznika , który również warto sprawdzić i mam laboratoria na DataCamp , jak sądzę).

Ponadto, jeśli chcesz odświeżyć kilka statystyk, zawsze możesz obejrzeć kilka filmów na Khan Academy .

Steve S.
źródło
Lubię Think Stats i Think Bayes, ale celowo unikają wielu formalnych teorii statystycznych na rzecz wykonywania zadań za pomocą kodu. Idealne do uzyskania intuicyjnego zrozumienia tematu, ale nie tak dobre, jeśli Twoim celem jest zrozumienie podstawowej teorii.
Marius
@Marius: Wiem, co masz na myśli. Myślałem jednak, że ponieważ jest on już programistą, a także dlatego, że wydawało się, że chce „czegoś małego, prostego i szybkiego”, aby mogło to być więcej tego, czego szuka.
Steve S,
8

Jeśli kiedykolwiek, nawet w odległej przeszłości, byłeś w stanie rozwiązać problemy na tej liście , powinieneś spróbować przestudiować stosowane statystyki „prawidłowo”. Dam ci prosty algorytm dwuetapowy.

Najpierw przyzwyczaj się do teorii prawdopodobieństwa. Jest wiele świetnych książek. Moim ulubionym jest klasyczna książka Fellera. Nazywa się to „Wprowadzenie”, ale tytuł nie daje się oszukać, jest tak głęboki, jak chcesz, ale bardzo dobrze napisany i prosty, jeśli chcesz po prostu prześlizgnąć się po powierzchni.

Drugim krokiem są statystyki. Znów jest mnóstwo świetnych książek. Dam ci jeden, którego użyłem, porządny tekst wprowadzający Gujarati „Basic Econometrics”, czwarte wydanie. Ekonometria to statystyka stosowana w ekonomii. Dla porównania, facetem, który wszyscy myślą, że naukowiec danych będzie najseksowniejszą pracą w ciągu najbliższych 10 lat, jest Hal Varian, ekonomista z Berkeley. Wiele rzeczy związanych z uczeniem maszynowym opiera się na podstawowych statystykach, regresjach itp. Wszystko to jest omówione w tej książce i nie musisz tego wszystkiego czytać, jest napisane w taki sposób, że możesz wybierać rozdziały we własnym porządku.

Będziesz zaskoczony, gdy zobaczysz, ile luk pozostało otwartych po zajęciach Ng wypełniających się szybko podczas czytania tych tekstów.

Jako praktykujący nie potrzebujesz zbyt dużo teorii po tych dwóch krokach. Możesz nadal uczyć się technik ML, szczególnie czytając książki w tej dziedzinie. Ważne jest, aby nie zagłębiać się na początku w prawdopodobieństwo i statystyki. Najpierw przygotuj kod ML i uzupełniaj luki.

Aksakal
źródło
4

Wszyscy polecają Casella i Berger, który jest prawie powszechnie stosowany w programach statystycznych dla absolwentów. Nie jest to zła książka referencyjna, ale nie jestem pewien, czy zrobiłbym więcej niż zeskanowanie pierwszych 4-5 rozdziałów. Nie sądzę, żebyś potrzebował teorii konstruowania testu typu Neymana-Pearsona przed zagłębieniem się w „statystyki”, tj. Analizę danych.

Zamiast tego skupiłbym się na metodach uczenia się. Mój program dla absolwentów zastosował Stosowane Liniowe Metody Statystyczne do testów dla osób często uczących się i jest to całkiem przyzwoite kompleksowe odniesienie, ale może nie być najbardziej dostępną książką z samouczącego się punktu widzenia. Kurs lub dwa z MIT lub coursera mogą być lepszym sposobem na rozpoczęcie od tego, ponieważ uzyskasz szerszy przegląd z większą liczbą przykładów niż po przeczytaniu książki.

W przypadku Bayesa książka, z której najczęściej korzystałem, to Doing Bayesian Data Analysis , która zawiera zdjęcia szczeniąt (wyraźnie, to czyni tę książkę lepszą od innych wprowadzających podręczników Bayesa). Nigdy nie korzystałem z tej książki, ale przeglądałem ją i wydaje się całkiem przyzwoita - znacznie lepsza niż książka Gelmana, którą znalazłem nieco niezrozumiałą PO dwóch klasach statystyki bayesowskiej - wyjaśnienia są okropne.

srvanderplas
źródło
1
Pierwsze 5 rozdziałów C&B nie jest w ogóle statystykami, bardziej przypomina tło ... Pojęcie statystyki jest omówione na początku rozdziału 6! Co więcej, metody uczenia się prawdopodobnie nie pomogą tej konkretnej osobie. pomogłoby mu to zastosować statystyki, a nie zrozumieć, czego potrzebuje. jeśli ma zaawansowany trening matematyczny, prawdopodobnie może go w pewnym stopniu pominąć, ale jego odpowiedź sugeruje, że obecnie nie jest w stanie zrozumieć podstaw ML ... co zdecydowanie sugeruje, że jego matematyka jest ograniczona (przynajmniej dla mnie). C&B może nie być złym miejscem do rozpoczęcia.
Vincent Laufer
1
Mogą to nie być statystyki, ale podstawa rozkładów prawdopodobieństwa jest niezbędna do wszelkiego rodzaju modelowania - musisz wiedzieć, czym jest rozkład bernoulli i jakie są jego właściwości, zanim na przykład zrozumiesz regresję logistyczną. Od czasu do czasu odnoszę się do C&B, ale nie sądzę, żebym kiedykolwiek używał czegokolwiek poza rozdziałem 6 poza klasą, w której korzystałem z tej książki.
srvanderplas
1
całkiem zgadzam się z tym, co powiedziałeś, ale odnosi się to do dygresji zamiast do głównego punktu - co jest moją winą za dodanie dygresji w pierwszej kolejności. w każdym razie, głównym punktem jest to, że, jak sugerowało kilka innych, OP faktycznie musi uzyskać lepsze zrozumienie matematyki teoretycznej i statystyki. nigdzie nie wskazuje, że potrzebuje pomocy w stosowaniu większej liczby testów statystycznych. on może to zrobić. chce je głębiej zrozumieć. w tym celu C&B jest lepsze niż uczenie się więcej praktycznego przygotowania do aplikacji.
Vincent Laufer
3

To nie jest pełna odpowiedź, to tylko sugestia. Jeśli chcesz dowiedzieć się więcej na temat statystyki (podstawy), możesz przeczytać:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Jest to dość standardowa książka dla statystyk i ma wiele interesujących wyników. Nie musisz przechodzić przez wszystkie dowody twierdzeń, ale możesz zrobić kilka ćwiczeń, aby poczuć się bardziej bezpiecznie z wynikami.

Jeśli chcesz dowiedzieć się więcej o ekonometrii (modelach danych), możesz spojrzeć na:

Hayashi, F. (2000): Econometrics, Princeton University Press

Ktoś inny zapytał o coś podobnego do tego, o co prosiłeś, i uzyskał miłą odpowiedź: co zrobić po „Casella & Berger” .

Ponadto, jeśli naprawdę zamierzasz czytać te książki, ten program kursu ekonometrycznego może dać ci całkiem dobry kierunek i tempo tego, co czytać (CB i Hayashi) i kiedy czytać.

Guilherme Salomé
źródło
Dziękuję za sugestię, jednak pierwsza wspomniana książka ma około 660 stron ... Przeczytałem większe książki, ale czy jest coś małego, prostego i szybkiego, aby mógłbym się zorientować?
Juan Antonio Gomez Moriano
3
Casella i Berger przedstawią ci teorię statystyki, ale niewiele dowiesz się o analizie danych.
Glen_b
1
@JuanAntonioGomezMoriano jak mały byłeś? Zawsze byłem fanem Jak kłamać ze statystykami jako punktem wyjścia.
icc97
(-1) Brzmią jak idealne wybory dla kogoś, kto preferuje matematyczne lub teoretyczne podejście do statystyki, zupełnie przeciwnie, niż wymagało PO.
Gala
1
Powiedział, że potrzebuje bardziej „formalnej” wiedzy i podstawowej wiedzy na temat statystyki.
Guilherme Salomé
2

Zasugerowałbym nową książkę, która ukazała się od pierwotnego pytania: Rethinking statystyczny: kurs bayesowski z przykładami w R i Stanie autorstwa Richarda McElreath, CRC Press.

Jest bardzo dobrze napisany i wykorzystuje podejście bayesowskie. Jest bardzo interaktywny i będziesz chciał rozwiązać problemy, w przeciwnym razie możesz przejść do połowy i zacząć się gubić.

Zaczyna się bardzo prosto i kończy się na modelach wielopoziomowych, i jest skierowany do dość zaawansowanych naukowców, którzy mają pewną wiedzę statystyczną, ale nie czują się ogólnie dobrze ze statystyką, jak ją nauczono. Nie mogę więc powiedzieć, że to książka dla początkujących, ale zaczyna się bardzo prosto, a on ma wspaniały styl i styl.

Część „Stan” jest uniwersalnym narzędziem do próbkowania bayesowskiego. Zasadniczo jest to język programowania, który kompiluje się automatycznie do C ++, a następnie kompiluje do pliku wykonywalnego. (Wnioskowanie bayesowskie jest ogólne, w przeciwieństwie do alternatyw, więc możesz mieć ogólne narzędzie).

Wayne
źródło
1

Pomyślałem, że wrzucę tę odpowiedź dla potomności, nawet jeśli prawdopodobnie jest już za późno, aby była przydatna. All Of Statistics Larry'ego Wassermana został pomyślany jako kurs dla osób z wykształceniem maszynowym, innymi dyscyplinami nauk ścisłych lub matematyki, którzy nie odbyli żadnego formalnego szkolenia w statystyce - tj. Dla osób w dokładnie takiej samej sytuacji. Mając podobny brak formalnych statystyk, kilku przyjaciół i ja utworzyliśmy grupę do samodzielnej nauki, aby przejść przez to w szkole podstawowej. Myślę, że naprawdę skorzystałem z tego doświadczenia.

Dodatkowe tematy, które Wasserman rzuca poza typowy materiał szkoleniowy „prawdopodobieństwo i wnioskowanie statystyczne”, takie jak modele graficzne i ładowanie systemu, są szczególnie istotne dla osób pracujących w uczeniu maszynowym. Powinienem powiedzieć, że książka może być dość zwięzła w porównaniu do czegoś takiego jak Casella i Berger, więc jeśli chcesz więcej szczegółów lub motywacji do niektórych części (szczególnie dowodów), być może będziesz musiał ją uzupełnić innymi materiałami do czytania. To powiedziawszy, znalazłem też książkę napisaną wyraźnie z dużą ilością problemów z ćwiczeniami i jest to świetna, szybka referencja.

Jeden miesiąc to mało czasu. Jeśli jednak ustalisz bardzo agresywne tempo, myślę, że z pewnością możesz wiele wyciągnąć z tego tekstu w jednym semestrze: na przykład zrobiliśmy naszą grupę do samodzielnej nauki latem. Jest to szczególnie ważne, jeśli najbardziej interesuje Cię modelowanie liniowe, które trafi Ch. 13–14.

Patrick B.
źródło