W pierwszej połowie 2015 r. Ukończyłem kurs Machine Learning (autor: Andrew Ng, WIELKI kurs). I nauczył się podstaw uczenia maszynowego (regresja liniowa, regresja logistyczna, SVM, sieci neuronowe ...)
Jestem również programistą od 10 lat, więc nauka nowego języka programowania nie byłaby problemem.
Ostatnio zacząłem uczyć się języka R w celu wdrożenia algorytmów uczenia maszynowego.
Zdałem sobie jednak sprawę, że jeśli chcę się uczyć, potrzebuję bardziej formalnej wiedzy statystycznej, obecnie mam nieformalną wiedzę na jej temat, ale tak ograniczoną, że na przykład nie jestem w stanie właściwie określić, który z kilku modeli liniowych byłoby lepiej (zwykle używam do tego kwadratu R, ale najwyraźniej nie jest to zbyt dobry pomysł).
Wydaje mi się więc oczywiste, że muszę nauczyć się podstaw statystyki (studiowałem to na uniwersytecie, ale większość z nich zapomniałem), gdzie powinienem się nauczyć, proszę zauważyć, że tak naprawdę nie potrzebuję w pełni kompleksowego kursu, po prostu coś że w ciągu miesiąca pozwala mi to wiedzieć wystarczająco dużo, aby móc być chętnym i dowiedzieć się więcej :).
Do tej pory czytałem o „ statystykach bez łez ”, jakieś inne sugestie?
źródło
references
tag. Może chcesz skanować przez pierwszą stronę hitów na ten temat.Odpowiedzi:
Proponuję ci podstawową mapę drogową na temat tego, jak to zrobić:
Premia:
Wspaniałą stroną takich map drogowych jest Metacademy , którą osobiście poręczyłbym za jedno z najlepszych zasobów Data Science w sieci.
Gitxiv to kolejna piękna strona, która łączy prace badawcze Arxiv dotyczące Data Science z odpowiednimi implementacjami / bibliotekami typu open source.
źródło
Czy sprawdziłeś Think Stats lub Think Bayes - są to zarówno (bezpłatne) statystyki książek skierowane do programistów, z dużą ilością kodu Python.
Ponadto, jeśli jesteś zainteresowany w nauce R następnie CRAN ma wiele (wolnych) pliki PDF, które może chcesz sprawdzić, jak Wstęp do prawdopodobieństwa i statystyki wykorzystując R . Istnieje również kurs Coursera, w którym używa się języka R, który naprawdę kocha wiele osób (używają tego podręcznika , który również warto sprawdzić i mam laboratoria na DataCamp , jak sądzę).
Ponadto, jeśli chcesz odświeżyć kilka statystyk, zawsze możesz obejrzeć kilka filmów na Khan Academy .
źródło
Jeśli kiedykolwiek, nawet w odległej przeszłości, byłeś w stanie rozwiązać problemy na tej liście , powinieneś spróbować przestudiować stosowane statystyki „prawidłowo”. Dam ci prosty algorytm dwuetapowy.
Najpierw przyzwyczaj się do teorii prawdopodobieństwa. Jest wiele świetnych książek. Moim ulubionym jest klasyczna książka Fellera. Nazywa się to „Wprowadzenie”, ale tytuł nie daje się oszukać, jest tak głęboki, jak chcesz, ale bardzo dobrze napisany i prosty, jeśli chcesz po prostu prześlizgnąć się po powierzchni.
Drugim krokiem są statystyki. Znów jest mnóstwo świetnych książek. Dam ci jeden, którego użyłem, porządny tekst wprowadzający Gujarati „Basic Econometrics”, czwarte wydanie. Ekonometria to statystyka stosowana w ekonomii. Dla porównania, facetem, który wszyscy myślą, że naukowiec danych będzie najseksowniejszą pracą w ciągu najbliższych 10 lat, jest Hal Varian, ekonomista z Berkeley. Wiele rzeczy związanych z uczeniem maszynowym opiera się na podstawowych statystykach, regresjach itp. Wszystko to jest omówione w tej książce i nie musisz tego wszystkiego czytać, jest napisane w taki sposób, że możesz wybierać rozdziały we własnym porządku.
Będziesz zaskoczony, gdy zobaczysz, ile luk pozostało otwartych po zajęciach Ng wypełniających się szybko podczas czytania tych tekstów.
Jako praktykujący nie potrzebujesz zbyt dużo teorii po tych dwóch krokach. Możesz nadal uczyć się technik ML, szczególnie czytając książki w tej dziedzinie. Ważne jest, aby nie zagłębiać się na początku w prawdopodobieństwo i statystyki. Najpierw przygotuj kod ML i uzupełniaj luki.
źródło
Wszyscy polecają Casella i Berger, który jest prawie powszechnie stosowany w programach statystycznych dla absolwentów. Nie jest to zła książka referencyjna, ale nie jestem pewien, czy zrobiłbym więcej niż zeskanowanie pierwszych 4-5 rozdziałów. Nie sądzę, żebyś potrzebował teorii konstruowania testu typu Neymana-Pearsona przed zagłębieniem się w „statystyki”, tj. Analizę danych.
Zamiast tego skupiłbym się na metodach uczenia się. Mój program dla absolwentów zastosował Stosowane Liniowe Metody Statystyczne do testów dla osób często uczących się i jest to całkiem przyzwoite kompleksowe odniesienie, ale może nie być najbardziej dostępną książką z samouczącego się punktu widzenia. Kurs lub dwa z MIT lub coursera mogą być lepszym sposobem na rozpoczęcie od tego, ponieważ uzyskasz szerszy przegląd z większą liczbą przykładów niż po przeczytaniu książki.
W przypadku Bayesa książka, z której najczęściej korzystałem, to Doing Bayesian Data Analysis , która zawiera zdjęcia szczeniąt (wyraźnie, to czyni tę książkę lepszą od innych wprowadzających podręczników Bayesa). Nigdy nie korzystałem z tej książki, ale przeglądałem ją i wydaje się całkiem przyzwoita - znacznie lepsza niż książka Gelmana, którą znalazłem nieco niezrozumiałą PO dwóch klasach statystyki bayesowskiej - wyjaśnienia są okropne.
źródło
To nie jest pełna odpowiedź, to tylko sugestia. Jeśli chcesz dowiedzieć się więcej na temat statystyki (podstawy), możesz przeczytać:
Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury
Jest to dość standardowa książka dla statystyk i ma wiele interesujących wyników. Nie musisz przechodzić przez wszystkie dowody twierdzeń, ale możesz zrobić kilka ćwiczeń, aby poczuć się bardziej bezpiecznie z wynikami.
Jeśli chcesz dowiedzieć się więcej o ekonometrii (modelach danych), możesz spojrzeć na:
Hayashi, F. (2000): Econometrics, Princeton University Press
Ktoś inny zapytał o coś podobnego do tego, o co prosiłeś, i uzyskał miłą odpowiedź: co zrobić po „Casella & Berger” .
Ponadto, jeśli naprawdę zamierzasz czytać te książki, ten program kursu ekonometrycznego może dać ci całkiem dobry kierunek i tempo tego, co czytać (CB i Hayashi) i kiedy czytać.
źródło
Zasugerowałbym nową książkę, która ukazała się od pierwotnego pytania: Rethinking statystyczny: kurs bayesowski z przykładami w R i Stanie autorstwa Richarda McElreath, CRC Press.
Jest bardzo dobrze napisany i wykorzystuje podejście bayesowskie. Jest bardzo interaktywny i będziesz chciał rozwiązać problemy, w przeciwnym razie możesz przejść do połowy i zacząć się gubić.
Zaczyna się bardzo prosto i kończy się na modelach wielopoziomowych, i jest skierowany do dość zaawansowanych naukowców, którzy mają pewną wiedzę statystyczną, ale nie czują się ogólnie dobrze ze statystyką, jak ją nauczono. Nie mogę więc powiedzieć, że to książka dla początkujących, ale zaczyna się bardzo prosto, a on ma wspaniały styl i styl.
Część „Stan” jest uniwersalnym narzędziem do próbkowania bayesowskiego. Zasadniczo jest to język programowania, który kompiluje się automatycznie do C ++, a następnie kompiluje do pliku wykonywalnego. (Wnioskowanie bayesowskie jest ogólne, w przeciwieństwie do alternatyw, więc możesz mieć ogólne narzędzie).
źródło
Pomyślałem, że wrzucę tę odpowiedź dla potomności, nawet jeśli prawdopodobnie jest już za późno, aby była przydatna. All Of Statistics Larry'ego Wassermana został pomyślany jako kurs dla osób z wykształceniem maszynowym, innymi dyscyplinami nauk ścisłych lub matematyki, którzy nie odbyli żadnego formalnego szkolenia w statystyce - tj. Dla osób w dokładnie takiej samej sytuacji. Mając podobny brak formalnych statystyk, kilku przyjaciół i ja utworzyliśmy grupę do samodzielnej nauki, aby przejść przez to w szkole podstawowej. Myślę, że naprawdę skorzystałem z tego doświadczenia.
Dodatkowe tematy, które Wasserman rzuca poza typowy materiał szkoleniowy „prawdopodobieństwo i wnioskowanie statystyczne”, takie jak modele graficzne i ładowanie systemu, są szczególnie istotne dla osób pracujących w uczeniu maszynowym. Powinienem powiedzieć, że książka może być dość zwięzła w porównaniu do czegoś takiego jak Casella i Berger, więc jeśli chcesz więcej szczegółów lub motywacji do niektórych części (szczególnie dowodów), być może będziesz musiał ją uzupełnić innymi materiałami do czytania. To powiedziawszy, znalazłem też książkę napisaną wyraźnie z dużą ilością problemów z ćwiczeniami i jest to świetna, szybka referencja.
Jeden miesiąc to mało czasu. Jeśli jednak ustalisz bardzo agresywne tempo, myślę, że z pewnością możesz wiele wyciągnąć z tego tekstu w jednym semestrze: na przykład zrobiliśmy naszą grupę do samodzielnej nauki latem. Jest to szczególnie ważne, jeśli najbardziej interesuje Cię modelowanie liniowe, które trafi Ch. 13–14.
źródło