Jak zacząć czytać o eksploracji danych?

14

Jestem nowicjuszem, który zacznie czytać o eksploracji danych. Mam podstawową wiedzę na temat sztucznej inteligencji i statystyki. Ponieważ wielu twierdzi, że uczenie maszynowe odgrywa również ważną rolę w eksploracji danych, czy konieczne jest przeczytanie o uczeniu maszynowym, zanim będę mógł kontynuować eksplorację danych?

Mrówki
źródło
1
Data Mining: Concepts and Techniques Autor: Jiawei Han to dobry początek
aaronjg

Odpowiedzi:

12

Będąc trochę w tej pozycji, postaram się dać wgląd.

Najpierw pobierz elementy uczenia statystycznego . Zakłada rachunek różniczkowy i algebrę liniową i chociaż jest bardzo techniczny, jest również wyjątkowo dobrze napisany.

Po drugie (lub po pierwsze) zapoznaj się z samouczkami Andrew Ng dotyczącymi uczenia maszynowego.

Po trzecie, zdobądź trochę danych i rozpocznij próbę ich analizy. Musisz podzielić na zestawy treningowe i testowe, a następnie zbudować modele na zestawie treningowym i przetestować je na zestawie testowym. Uważam, że pakiet karetki dla R jest bardzo przydatny do tego wszystkiego. Po tym ćwiczeniu ćwicz ćwiczenie (jak prawie wszystko inne).

richiemorrisroe
źródło
1
odstraszysz biedaka na zawsze!
Neil McGuigan
Zgodnie z ml-class.org - kurs Andew Ng będzie „oferowany bezpłatnie i online” studentom na całym świecie jesienią 2011 r.
Andre Holzner
4

Eksploracja danych może mieć charakter opisowy lub predykcyjny.

Z jednej strony, jeśli interesuje Cię opisowe wyszukiwanie danych, uczenie maszynowe nie pomoże.

Z drugiej strony, jeśli jesteś zainteresowany predykcyjnym eksploracją danych, to uczenie maszynowe pomoże ci zrozumieć, że próbujesz zminimalizować nieznane ryzyko (oczekiwanie funkcji straty) przy minimalizacji ryzyka empirycznego: będziesz pamiętać o przeładowaniu, uogólnieniu błąd i weryfikacja krzyżowa. Na przykład dla zachowania spójności wartość -NN dla próbki szkoleniowej o rozmiarze powinna być taka, aby:kn

  • k idzie w nieskończoność, gdy idzie w nieskończoność,n
  • kn przechodzi do 0, gdy przechodzi w nieskończoność.n
Wok
źródło
3
Warto zauważyć, że niektórzy autorzy lubią rozróżniać DM i ML w zależności od wielkości . Osobiście podoba mi się podejście Radforda Neale'a w jego kursie Statystycznych metod uczenia maszynowego i eksploracji danych : Wiele problemów uczenia maszynowego ma dużą liczbę zmiennych, aplikacje eksploracji danych często obejmują bardzo dużą liczbę przypadków. k/n
chl
3

Dodam tylko kolejne bardzo dobre źródło samouczków dotyczących eksploracji danych / uczenia maszynowego autorstwa Toma Mitchella .

Wyjaśnia to bardzo wyraźnie i możesz również pobrać jego prezentacje ze swojej strony internetowej (wraz z oglądaniem tam jego wykładów).

Miroslav Sabo
źródło