Jestem pewien, że nauka o danych, która będzie omawiana na tym forum, ma kilka synonimów lub przynajmniej powiązanych dziedzin, w których analizowane są duże dane.
Moje szczególne pytanie dotyczy eksploracji danych. Kilka lat temu wziąłem udział w zajęciach z Data Mining. Jakie są różnice między Data Science a Data Mining, a w szczególności na co jeszcze muszę spojrzeć, aby uzyskać biegłość w Data Mining?
data-mining
definitions
demongolem
źródło
źródło
Odpowiedzi:
@statsRus zaczyna przygotowywać się do odpowiedzi w innym pytaniu /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :
Definicja
eksploracja danych może być postrzegana jako jeden element (lub zestaw umiejętności i aplikacji) w zestawie narzędzi naukowca danych. Podoba mi się, jak oddziela definicję wydobycia od zbierania w swoistym żargonie handlowym.
Myślę jednak, że eksploracja danych byłaby równoznaczna z gromadzeniem danych w amerykańsko-angielskiej definicji potocznej.
Co zrobić, aby stać się biegłym? Myślę, że to pytanie jest zbyt ogólne, ponieważ jest obecnie stawiane i mogłoby otrzymać odpowiedzi oparte głównie na opiniach. Być może, gdybyś mógł uściślić swoje pytanie, łatwiej byłoby zobaczyć, o co pytasz.
źródło
To, co opublikowałem @Clayton, wydaje mi się słuszne, jeśli chodzi o te warunki, i że „eksploracja danych” jest jednym z narzędzi naukowca. Jednak tak naprawdę nie użyłem terminu „gromadzenie danych” i nie wydaje mi się to równoznaczne z „eksploracją danych”.
Moja własna odpowiedź na twoje pytanie: nie , warunki nie są takie same. Definicje mogą być luźne w tej dziedzinie, ale nie widziałem tych terminów używanych zamiennie. W mojej pracy czasami używamy ich do rozróżniania celów lub metod. Dla nas nauka danych polega bardziej na testowaniu hipotezy i zazwyczaj dane są gromadzone tylko w tym celu. eksploracja danych polega bardziej na przeszukiwaniu istniejących danych, poszukiwaniu struktury i być może generowaniu hipotez. Eksploracja danych może rozpocząć się od hipotezy, ale często jest bardzo słaba lub ogólna i może być trudna do rozwiązania z pewnością. (Kop wystarczająco długo, a znajdziesz coś , choć może się to okazać pirytem.)
Jednakże użyliśmy również „danych naukowych” jako szerszego terminu, obejmującego „eksplorację danych”. Mówimy również o „modelowaniu danych”, które dla nas polega na znalezieniu modelu systemu zainteresowania opartego na danych, a także innej wiedzy i celach. Czasami oznacza to próbę znalezienia matematyki wyjaśniającej prawdziwy system, a czasami oznacza znalezienie modelu predykcyjnego, który jest wystarczająco dobry do określonego celu.
źródło
Moja odpowiedź brzmiałaby „nie”. Uważam, że eksploracja danych jest jedną z różnorodnych dziedzin nauki o danych. Eksploracja danych jest przeważnie brana pod uwagę przy zadawaniu pytań zamiast na udzielaniu odpowiedzi. Jest to często określane jako „wykrywanie czegoś nowego” w porównaniu do Data science, gdzie naukowiec danych próbuje rozwiązać złożone problemy, aby osiągnąć swoje ostateczne wyniki. Jednak oba terminy mają wiele podobieństw między nimi. Na przykład ... jeśli masz grunty rolne, na których chcesz znaleźć rośliny dotknięte chorobą .. Tutaj eksploracja danych przestrzennych odgrywa kluczową rolę w wykonywaniu tej pracy. Istnieją duże szanse, że możesz nie tylko znaleźć rośliny na lądzie, ale także w stopniu, w jakim są one dotknięte ....... jest to niemożliwe w przypadku nauki danych.
źródło
Istnieje wiele nakładań między eksploracją danych a nauką danych. Powiedziałbym, że ludzie pełniący rolę analizy danych zajmują się zbieraniem danych i wydobywaniem funkcji z niefiltrowanych, niezorganizowanych i głównie surowych / dzikich zestawów danych. Niektóre bardzo ważne dane mogą być trudne do wyodrębnienia, nie dotyczy to kwestii związanych z implementacją, ale ponieważ mogą zawierać obce artefakty.
Na przykład. gdybym potrzebował kogoś, kto spojrzy na dane finansowe z pisemnych deklaracji podatkowych z lat 70., które zostały zeskanowane i czytane maszynowo, aby dowiedzieć się, czy ludzie oszczędzają więcej na ubezpieczeniu samochodu; osoba, która uzyskałaby dane, byłaby osobą do zdobycia.
Gdybym potrzebował kogoś, kto by zbadał wpływ profilu Nike na Twitterze w tweetach Brazylii i zidentyfikował kluczowe pozytywne cechy z profilu, szukałbym specjalisty od danych.
źródło