Jak zacząć czytać o eksploracji danych?

14

Jestem nowicjuszem, który zacznie czytać o eksploracji danych. Mam podstawową wiedzę na temat sztucznej inteligencji i statystyki. Ponieważ wielu twierdzi, że uczenie maszynowe odgrywa również ważną rolę w eksploracji danych, czy konieczne jest przeczytanie o uczeniu maszynowym, zanim będę mógł kontynuować eksplorację danych?

machine-learning references data-mining Mrówki
źródło

1

Data Mining: Concepts and Techniques Autor: Jiawei Han to dobry początek

aaronjg

12

Będąc trochę w tej pozycji, postaram się dać wgląd.

Najpierw pobierz elementy uczenia statystycznego . Zakłada rachunek różniczkowy i algebrę liniową i chociaż jest bardzo techniczny, jest również wyjątkowo dobrze napisany.

Po drugie (lub po pierwsze) zapoznaj się z samouczkami Andrew Ng dotyczącymi uczenia maszynowego.

Po trzecie, zdobądź trochę danych i rozpocznij próbę ich analizy. Musisz podzielić na zestawy treningowe i testowe, a następnie zbudować modele na zestawie treningowym i przetestować je na zestawie testowym. Uważam, że pakiet karetki dla R jest bardzo przydatny do tego wszystkiego. Po tym ćwiczeniu ćwicz ćwiczenie (jak prawie wszystko inne).

richiemorrisroe
źródło

1

odstraszysz biedaka na zawsze!

Neil McGuigan

Zgodnie z ml-class.org - kurs Andew Ng będzie „oferowany bezpłatnie i online” studentom na całym świecie jesienią 2011 r.

Andre Holzner

5

Wprowadzenie do Data Mining autorstwa Tan, Steinbech, Kumar jest najlepszą dostępną książką intro

http://www.amazon.com/Introduction-Data-Mining-Pang-Ning-Tan/dp/0321321367

zachowaj EoSL, gdy chcesz głębiej kopać. To bardziej odniesienie.

Neil McGuigan
źródło

4

Eksploracja danych może mieć charakter opisowy lub predykcyjny.

Z jednej strony, jeśli interesuje Cię opisowe wyszukiwanie danych, uczenie maszynowe nie pomoże.

Z drugiej strony, jeśli jesteś zainteresowany predykcyjnym eksploracją danych, to uczenie maszynowe pomoże ci zrozumieć, że próbujesz zminimalizować nieznane ryzyko (oczekiwanie funkcji straty) przy minimalizacji ryzyka empirycznego: będziesz pamiętać o przeładowaniu, uogólnieniu błąd i weryfikacja krzyżowa. Na przykład dla zachowania spójności wartość -NN dla próbki szkoleniowej o rozmiarze powinna być taka, aby: $k$ $n$

$k$ idzie w nieskończoność, gdy idzie w nieskończoność, $n$
$\frac{k}{n}$ przechodzi do 0, gdy przechodzi w nieskończoność. $n$

Wok
źródło

3

Warto zauważyć, że niektórzy autorzy lubią rozróżniać DM i ML w zależności od wielkości . Osobiście podoba mi się podejście Radforda Neale'a w jego kursie Statystycznych metod uczenia maszynowego i eksploracji danych : Wiele problemów uczenia maszynowego ma dużą liczbę zmiennych, aplikacje eksploracji danych często obejmują bardzo dużą liczbę przypadków.

k / n

$k/n$

chl

3

Dodam tylko kolejne bardzo dobre źródło samouczków dotyczących eksploracji danych / uczenia maszynowego autorstwa Toma Mitchella .

Wyjaśnia to bardzo wyraźnie i możesz również pobrać jego prezentacje ze swojej strony internetowej (wraz z oglądaniem tam jego wykładów).

Miroslav Sabo
źródło

Jak zacząć czytać o eksploracji danych?

Odpowiedzi: