Czy Data Science to to samo, co Data Mining?

22

Jestem pewien, że nauka o danych, która będzie omawiana na tym forum, ma kilka synonimów lub przynajmniej powiązanych dziedzin, w których analizowane są duże dane.

Moje szczególne pytanie dotyczy eksploracji danych. Kilka lat temu wziąłem udział w zajęciach z Data Mining. Jakie są różnice między Data Science a Data Mining, a w szczególności na co jeszcze muszę spojrzeć, aby uzyskać biegłość w Data Mining?

demongolem
źródło
Jeśli chodzi o drugą część twojego pytania, zaproponowałem dyskusję na stronie meta: meta.datascience.stackexchange.com/questions/5/… Jak to otrzymane może mieć wpływ na to, czy twoje obawy dotyczące biegłości są możliwe do ustalenia, czy w zakresie.
Clayton

Odpowiedzi:

25

@statsRus zaczyna przygotowywać się do odpowiedzi w innym pytaniu /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :

  • Zbieranie danych : przeglądanie stron internetowych i ankiety online
  • Manipulowanie danymi : przekodowywanie niechlujnych danych i wydobywanie znaczenia z danych językowych i sieci społecznościowych
  • Skala danych : praca z bardzo dużymi zestawami danych
  • Eksploracja danych : znajdowanie wzorców w dużych, złożonych zestawach danych, z naciskiem na techniki algorytmiczne
  • Komunikacja danych : pomaga przekształcić dane „do odczytu maszynowego” w informacje „do odczytu przez człowieka” za pomocą wizualizacji

Definicja

może być postrzegana jako jeden element (lub zestaw umiejętności i aplikacji) w zestawie narzędzi naukowca danych. Podoba mi się, jak oddziela definicję wydobycia od zbierania w swoistym żargonie handlowym.

Myślę jednak, że eksploracja danych byłaby równoznaczna z gromadzeniem danych w amerykańsko-angielskiej definicji potocznej.

Co zrobić, aby stać się biegłym? Myślę, że to pytanie jest zbyt ogólne, ponieważ jest obecnie stawiane i mogłoby otrzymać odpowiedzi oparte głównie na opiniach. Być może, gdybyś mógł uściślić swoje pytanie, łatwiej byłoby zobaczyć, o co pytasz.

Clayton
źródło
11

To, co opublikowałem @Clayton, wydaje mi się słuszne, jeśli chodzi o te warunki, i że „eksploracja danych” jest jednym z narzędzi naukowca. Jednak tak naprawdę nie użyłem terminu „gromadzenie danych” i nie wydaje mi się to równoznaczne z „eksploracją danych”.

Moja własna odpowiedź na twoje pytanie: nie , warunki nie są takie same. Definicje mogą być luźne w tej dziedzinie, ale nie widziałem tych terminów używanych zamiennie. W mojej pracy czasami używamy ich do rozróżniania celów lub metod. Dla nas polega bardziej na testowaniu hipotezy i zazwyczaj dane są gromadzone tylko w tym celu. polega bardziej na przeszukiwaniu istniejących danych, poszukiwaniu struktury i być może generowaniu hipotez. Eksploracja danych może rozpocząć się od hipotezy, ale często jest bardzo słaba lub ogólna i może być trudna do rozwiązania z pewnością. (Kop wystarczająco długo, a znajdziesz coś , choć może się to okazać pirytem.)

Jednakże użyliśmy również „danych naukowych” jako szerszego terminu, obejmującego „eksplorację danych”. Mówimy również o „modelowaniu danych”, które dla nas polega na znalezieniu modelu systemu zainteresowania opartego na danych, a także innej wiedzy i celach. Czasami oznacza to próbę znalezienia matematyki wyjaśniającej prawdziwy system, a czasami oznacza znalezienie modelu predykcyjnego, który jest wystarczająco dobry do określonego celu.

Joe Fusion
źródło
8

Moja odpowiedź brzmiałaby „nie”. Uważam, że eksploracja danych jest jedną z różnorodnych dziedzin nauki o danych. Eksploracja danych jest przeważnie brana pod uwagę przy zadawaniu pytań zamiast na udzielaniu odpowiedzi. Jest to często określane jako „wykrywanie czegoś nowego” w porównaniu do Data science, gdzie naukowiec danych próbuje rozwiązać złożone problemy, aby osiągnąć swoje ostateczne wyniki. Jednak oba terminy mają wiele podobieństw między nimi. Na przykład ... jeśli masz grunty rolne, na których chcesz znaleźć rośliny dotknięte chorobą .. Tutaj eksploracja danych przestrzennych odgrywa kluczową rolę w wykonywaniu tej pracy. Istnieją duże szanse, że możesz nie tylko znaleźć rośliny na lądzie, ale także w stopniu, w jakim są one dotknięte ....... jest to niemożliwe w przypadku nauki danych.

Divya
źródło
Twoja odpowiedź jest bardzo ładna, a także byłoby miło, gdybyś dodał mały przykład, aby podkreślić swój punkt widzenia, że ​​eksploracja danych jest bardziej związana z wykrywaniem czegoś nowego , niż próbą rozwiązania i osiągnięcia wyników .
Rubens,
6

Istnieje wiele nakładań między eksploracją danych a nauką danych. Powiedziałbym, że ludzie pełniący rolę analizy danych zajmują się zbieraniem danych i wydobywaniem funkcji z niefiltrowanych, niezorganizowanych i głównie surowych / dzikich zestawów danych. Niektóre bardzo ważne dane mogą być trudne do wyodrębnienia, nie dotyczy to kwestii związanych z implementacją, ale ponieważ mogą zawierać obce artefakty.

Na przykład. gdybym potrzebował kogoś, kto spojrzy na dane finansowe z pisemnych deklaracji podatkowych z lat 70., które zostały zeskanowane i czytane maszynowo, aby dowiedzieć się, czy ludzie oszczędzają więcej na ubezpieczeniu samochodu; osoba, która uzyskałaby dane, byłaby osobą do zdobycia.

Gdybym potrzebował kogoś, kto by zbadał wpływ profilu Nike na Twitterze w tweetach Brazylii i zidentyfikował kluczowe pozytywne cechy z profilu, szukałbym specjalisty od danych.

Vass
źródło