Tło: Mój doktorat był w dziedzinie nauk obliczeniowych. Moja rozprawa dotyczyła analizy danych dyfrakcyjnych promieni rentgenowskich i analizy zaburzonych termicznie jąder w ogólnej analizie dynamicznej gęstości elektronowej molekularnej w fizyce ciała stałego. Na wynos? To było bardzo oparte na nauce.
Moim zdaniem nauka obliczeniowa jest dążeniem do nauki, „… systematycznym przedsięwzięciem, które buduje i organizuje wiedzę w formie testowalnych wyjaśnień i prognoz dotyczących wszechświata” ( wiki ), za pomocą środków obliczeniowych.
Większość pozycji w „Data Science” wydaje się jednak bardziej przypominać zadania związane z „analizą danych”. To znaczy, ciężkie zapytania SQL, przy użyciu wstępnie zbudowanych modeli R i Python (regresja liniowa itp.) W celu wyciągnięcia wniosków ze strukturalnych i nieustrukturyzowanych danych.
Czy nauka obliczeniowa jest nadzbiorem nauki o danych? Czy są wymienne? Czy Data Science to prawdziwa „nauka”? Czy nauka obliczeniowa jest faktycznie „nauką”?
źródło
Odpowiedzi:
Nie są wymienne.
Nauki obliczeniowe zwykle odnoszą się bardziej do HPC, technik symulacyjnych (równań różniczkowych, dynamiki molekularnej itp.) I są zwykle określane jako obliczenia naukowe.
Analiza danych zwykle odnosi się do intensywnie obliczeniowych analiz danych, takich jak „duże zbiory danych”, bioinformatyka, uczenie maszynowe (optymalizacja), analizy bayesowskie z wykorzystaniem MCMC itp. Myślę, że jest to to samo, co kiedyś określane jako statystyki obliczeniowe. Był to napływ informatyki ze statystykami, ale wiele opracowanych technik porzuciło rygorystyczne „testy statystyczne” Fisherii (grupowanie, techniki walidacji krzyżowej, wizualizacja danych), ale zachowało część danych.
Najbardziej jasne wyjaśnienie przyszło mi do głowy, gdy prowadziłem warsztaty na temat Julii w dziedzinie nauki o danych i informatyki naukowej. Badacze danych chcieli nauczyć się Julii w celu szybkiej analizy „dużych zbiorów danych”, tj. Regresji i innych GLM na dużych danych. Naukowcy zajmujący się obliczeniami (informatycy?) Chcieli wiedzieć, jak łatwo pisać kod w celu rozwiązywania dużych systemów liniowych na HPC i GPU.
Zauważ, że są to dwa sposoby na powiedzenie dokładnie tych samych obliczeń, ale o bardzo różnych znaczeniach. Tak więc w pewnym sensie podobne, ale wciąż odrębne (i istnieje rozbieżność między dyscyplinami, na przykład używanie uczenia maszynowego do uczenia się parametrów PDE z danych).
źródło