Jak samouczyć się danych? [Zamknięte]

16

Jestem samoukiem i jestem programistą stron internetowych i jestem zainteresowany nauczeniem się danych, ale nie jestem pewien, jak zacząć. W szczególności zastanawiam się:

  1. Jakie dziedziny istnieją w dziedzinie nauki o danych? (np. sztuczna inteligencja, uczenie maszynowe, analiza danych itp.)
  2. Czy są jakieś zajęcia online, które ludzie mogą polecić?
  3. Czy są dostępne projekty, nad którymi mogę ćwiczyć (np. Otwarte zestawy danych)?
  4. Czy są jakieś certyfikaty, o które mogę się ubiegać lub które należy wypełnić?
Jaskółka oknówka
źródło

Odpowiedzi:

15

Witamy na stronie, Martin! To dość szerokie pytanie, więc prawdopodobnie uzyskasz wiele odpowiedzi. Oto moje zdanie.

  1. Nauka o danych jest interdyscyplinarną dziedziną, o której powszechnie myśli się, że łączy klasyczną statystykę, uczenie maszynowe i informatykę (znowu, to zależy od tego, kogo zapytasz, ale inne mogą obejmować tutaj inteligencję biznesową, a także możliwą wizualizację informacji lub odkrywanie wiedzy; na przykład artykuł w Wikipedii na temat nauki o danych ). Dobry specjalista od danych ma również umiejętność rozpoznawania specyficznych dla domeny cech domeny, w której pracują. Na przykład naukowiec zajmujący się analizą danych szpitalnych jest znacznie bardziej skuteczny, jeśli ma doświadczenie w informatyce biomedycznej.
  2. Jest tu wiele opcji, w zależności od rodzaju analizy, którą jesteś zainteresowany. Kurs Andrew Ng to pierwszy zasób wymieniony przez większość , i słusznie. Jeśli interesuje Cię uczenie maszynowe, jest to świetne miejsce początkowe. Jeśli chcesz dogłębnie zgłębić matematykę, Tibshirani's The Elements of Statistics Learning to doskonały, ale dość zaawansowany tekst. Istnieje wiele kursów online dostępnych na coursera oprócz Ng, ale powinieneś wybrać je z myślą o rodzaju analityki, na której chcesz się skoncentrować i / lub domenie, w której planujesz pracować.
  3. Kaggle . Zacznij od kaggle, jeśli chcesz zagłębić się w niektóre rzeczywiste problemy analityczne. Jednak w zależności od Twojego poziomu wiedzy może być lepiej zacząć od prostszego. Project Euler to świetne źródło informacji na temat jednorazowych problemów treningowych, które wciąż używam jako rozgrzewki.
  4. Ponownie, prawdopodobnie zależy to od domeny, w której chcesz pracować. Wiem jednak, że Coursera oferuje certyfikat nauki danych, jeśli ukończysz serię kursów związanych z nauką danych. To prawdopodobnie dobre miejsce na rozpoczęcie.

Powodzenia! Jeśli masz jakieś inne szczegółowe pytania, nie wahaj się zadać mi komentarza, a ja postaram się pomóc!

Kyle.
źródło
1
Wracając do tego, kurs Andrew Ng jest trudny . Powinienem wspomnieć, że nie jestem silny z matematyki. Słyszałem, że ten drugi kurs Data Science jest nieco łatwiejszy do nauki lin. Co myślisz?
Martin
5

Jestem samoukiem, naukowcem danych i postaram się wyjaśnić, jak się do tego zabrać.


Jakie dziedziny istnieją w dziedzinie nauki o danych? (np. sztuczna inteligencja, uczenie maszynowe, analiza danych itp.)

Data Science to bardzo szeroka domena. Chodzi o naukę danych. Każde pole, które wykorzystuje dane do podejmowania decyzji, należy do tej domeny. Niektóre pola obejmują:

  • AI
  • Rozpoznawanie wzorców i analityka
  • Bio-statystyki
  • Nauka statystyczna
  • Nauczanie maszynowe
  • Estetyka danych (lub wizualizacja danych)
  • Dziennikarstwo danych

Czy są jakieś zajęcia online, które ludzie mogą polecić?

Odpowiedziałem na podobne pytanie . Więc zacytuję to tutaj:

Zacznij od uczenia maszynowego Coursera . Wykonuje naprawdę dobrą robotę, wprowadzając ucznia w dziedzinę uczenia maszynowego i pomaga położyć solidny fundament w koncepcjach.

Jeśli czujesz, że matematyka jest nieco głupia na tym kursie, możesz wziąć ten kurs , nauczany przez tego samego profesora i jest on intensywny z matematyki niż poprzedni.

Teraz masz jasną intuicję na temat podstawowych koncepcji uczenia maszynowego. Teraz weź ten kurs , który można powiedzieć jako kontynuację lub uzupełnienie kursu Andrew Ng.

Ten zasób z IAPR zawiera szczegółowe informacje na temat wielu koncepcji ML, takich jak walidacja krzyżowa, regularyzacja itp.

Możesz także rzucić okiem na tę niesamowitą listę zasobów skompilowaną w blogu na Quora.

Teraz, aby zanurzyć się w zaawansowanych koncepcjach sieci neuronowych i głębokim uczeniu się, możesz skorzystać z tej bezpłatnej książki .

Wreszcie darmowy e-book: Elements of Statistics Learning to wspaniała książka dla początkujących w ML lub Statistics Learning.

Oprócz tego sprawdzam to repozytorium referencji do nauki danych Quora .


Czy są dostępne projekty, nad którymi mogę ćwiczyć (np. Otwarte zestawy danych)?

Zacząłem robić projekty z otwartymi zbiorami danych z Indii. Polecam jednak sprawdzenie tej niesamowitej dyskusji tutaj , a po wykonaniu tych projektów możesz zacząć od Kaggle.


Czy są jakieś certyfikaty, o które mogę się ubiegać lub które należy wypełnić?

Moim zdaniem nie ma żadnych certyfikatów z zakresu analizy danych . Tak, istnieje wiele certyfikatów Big Data, ale nie widziałem, aby były one naprawdę przydatne dla początkującego naukowca danych, więc radzę nie ścigać ich przynajmniej dopóki nie będziesz wystarczająco pewny swojego ML i umiejętności w zakresie danych.

Dawny33
źródło
1

Polecam zacząć od specjalizacji Coursera w dziedzinie nauki o danych. Specjalizacja Data Science autorstwa Johns Hopkins jest najstarszą specjalizacją. Nie polecam książek i kaggle. Mylą cię tylko na początku. Pamiętaj, że kodowanie jest najłatwiejszą częścią nauki o danych i musisz dużo się nauczyć. Aby uzyskać pomysł na temat pola, ten schemat Venna jest dobrym początkiem.

Hamideh
źródło