Po niedawnym ukończeniu studiów doktoranckich z zakresu statystyki przez ostatnie kilka miesięcy zacząłem szukać pracy w dziedzinie statystyki. Prawie każda firma, którą rozważałem, miała ofertę pracy o tytule „ Data Scientist ”. W rzeczywistości wydawało się, że dawno minęły czasy, gdy zobaczył tytuły pracy naukowca lub statystysty . Czy bycie naukowcem danych naprawdę zastąpiło to, czym jest bycie statystyką, czy też tytuły były synonimami, o których zastanawiałem się?
Cóż, większość kwalifikacji do pracy wydawała się rzeczami, które kwalifikowałyby się pod tytułem statystyki. Większość prac chciała doktoratu z statystyki ( ), najbardziej wymagającego zrozumienia projektu eksperymentalnego ( ), regresji liniowej i anova ( ), uogólnionych modeli liniowych ( ) i innych metod wielowymiarowych, takich jak PCA ( ), a także wiedzy w statystycznym środowisku obliczeniowym, takim jak R lub SAS ( ). Wygląda na to, że naukowiec danych to tak naprawdę tylko kryptonim dla statystyk.
Jednak każdy wywiad, na który chodziłem, zaczynał się od pytania: „Czy znasz algorytmy uczenia maszynowego?” Najczęściej musiałem odpowiadać na pytania dotyczące dużych zbiorów danych, obliczeń o wysokiej wydajności oraz tematów dotyczących sieci neuronowych, CART, obsługi maszyn wektorowych, wspomagania drzew, modeli bez nadzoru itp. Pewnie byłem przekonany, że to wszystko pytania statystyczne w głębi duszy, ale pod koniec każdego wywiadu nie mogłem oprzeć się wrażeniu, że coraz mniej wiem o tym, czym jest naukowiec.
Jestem statystykiem, ale czy jestem naukowcem danych? Pracuję nad problemami naukowymi, więc muszę być naukowcem! A także pracuję z danymi, więc muszę być naukowcem danych! Według Wikipedii większość naukowców zgodziłaby się ze mną ( https://en.wikipedia.org/wiki/Data_science itp.)
Chociaż użycie terminu „nauka o danych” eksplodowało w środowisku biznesowym, wielu naukowców i dziennikarzy nie widzi różnicy między nauką o danych a statystykami.
Ale jeśli idę na te wszystkie rozmowy kwalifikacyjne na stanowisko naukowca danych, dlaczego wydaje mi się, że nigdy nie zadają mi pytań statystycznych?
Cóż, po moim ostatnim wywiadzie chciałem, aby zrobił to dobry naukowiec i szukałem danych, aby rozwiązać ten problem (hej, w końcu jestem naukowcem danych). Jednak po wielu niezliczonych wyszukiwaniach w Google później znalazłem się w miejscu, w którym zacząłem czuć się, jakbym ponownie zmagał się z definicją tego, czym był naukowiec. Nie wiedziałem, czym dokładnie jest badacz danych, ponieważ było tak wiele jego definicji ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ), ale wydawało się, że wszyscy mówili mi, że chcę być jednym z nich:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- itp ... lista jest długa.
Pod koniec dnia doszedłem do wniosku, że „czym jest badacz danych” jest bardzo trudnym pytaniem. Do diabła, w Amstat były dwa całe miesiące, w których poświęcili czas na próbę odpowiedzi na to pytanie:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Cóż, na razie muszę być seksownym statystykiem, aby być naukowcem danych, ale mam nadzieję, że zweryfikowana społeczność może rzucić nieco światła i pomóc mi zrozumieć, co to znaczy być naukowcem danych. Czyż wszyscy statystycy nie są naukowcami danych?
(Edycja / aktualizacja)
Myślałem, że to może urozmaicić rozmowę. Właśnie otrzymałem wiadomość e-mail od Amerykańskiego Stowarzyszenia Statystycznego na temat pracy w Microsoft poszukującej Data Scientist. Oto link: Data Scientist Position . Myślę, że jest to interesujące, ponieważ rola pozycji wpływa na wiele konkretnych cech, o których mówiliśmy, ale myślę, że wiele z nich wymaga bardzo rygorystycznego tła w statystykach, a także jest sprzeczne z wieloma odpowiedziami zamieszczonymi poniżej. W przypadku, gdy łącze przestanie działać, oto cechy, których Microsoft szuka u badacza danych:
Podstawowe wymagania i umiejętności związane z pracą:
Business Domain Experience z wykorzystaniem Analytics
- Musi mieć doświadczenie w kilku istotnych domenach biznesowych w zakresie wykorzystania umiejętności krytycznego myślenia do konceptualizacji złożonych problemów biznesowych i ich rozwiązań z wykorzystaniem zaawansowanych analiz w dużych zestawach danych biznesowych w świecie rzeczywistym
- Kandydat musi być w stanie samodzielnie prowadzić projekty analityczne i pomagać naszym wewnętrznym klientom zrozumieć wyniki i przełożyć je na działania, które przyniosą korzyści ich biznesowi.
Modelowanie predykcyjne
- Doświadczenie w różnych branżach w zakresie modelowania predykcyjnego
- Definicja problemu biznesowego i modelowanie koncepcyjne z klientem w celu uzyskania ważnych relacji i zdefiniowania zakresu systemu
Statystyka / ekonometria
- Analiza danych eksploracyjnych dla danych ciągłych i kategorycznych
- Specyfikacja i oszacowanie równań modelu strukturalnego dla zachowania przedsiębiorstwa i konsumenta, kosztu produkcji, zapotrzebowania na czynnik, dyskretnego wyboru i innych zależności technologicznych w zależności od potrzeb
- Zaawansowane techniki statystyczne do analizy danych ciągłych i kategorycznych
- Analiza szeregów czasowych i wdrożenie modeli prognostycznych
- Wiedza i doświadczenie w pracy z problemami z wieloma zmiennymi
- Umiejętność oceny poprawności modelu i przeprowadzania testów diagnostycznych
- Możliwość interpretacji statystyk lub modeli ekonomicznych
- Wiedza i doświadczenie w budowaniu dyskretnej symulacji zdarzeń oraz dynamicznych modeli symulacji
Zarządzanie danymi
- Znajomość posługiwania się T-SQL i analiz do transformacji danych oraz zastosowania eksploracyjnych technik analizy danych dla bardzo dużych rzeczywistych zbiorów danych
- Uwaga na integralność danych, w tym nadmiarowość danych, dokładność danych, wartości nienormalne lub ekstremalne, interakcje danych i brakujące wartości.
Umiejętności w zakresie komunikacji i współpracy
- Pracuj niezależnie i zdolny do współpracy z wirtualnym zespołem projektowym, który będzie badał innowacyjne rozwiązania trudnych problemów biznesowych
- Współpracuj z partnerami, stosuj umiejętności krytycznego myślenia i realizuj projekty analityczne od początku do końca
- Doskonałe umiejętności komunikacyjne, w mowie i piśmie
- Wizualizacja wyników analitycznych w formie, która może być wykorzystana przez różnorodny zestaw interesariuszy
Pakiety oprogramowania
- Zaawansowane pakiety oprogramowania statystycznego / ekonometrycznego: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Eksploracja danych, wizualizacja i zarządzanie: T-SQL, Excel, PowerBI i równoważne narzędzia
Kwalifikacje:
- Wymagane minimum 5 lat odpowiedniego doświadczenia
- Podyplomowe studia w dziedzinie ilościowej są pożądane.
źródło
Odpowiedzi:
Istnieje kilka humorystycznych definicji, których jeszcze nie podano:
Podoba mi się ten, ponieważ ładnie gra pod kątem bardziej szumu niż substancji.
Podobnie, te riffy o smaku tego wszystkiego na Zachodnim Wybrzeżu.
Osobiście uważam, że dyskusja (ogólnie i tutaj) jest nudna i powtarzalna. Kiedy myślałem o tym, co chciałem - może ćwierć wieku lub dłużej temu - dążyłem do analityka ilościowego. Nadal to robię (i uwielbiam!) I w większości pokrywa się z tym, co podano tutaj w różnych odpowiedziach.
(Uwaga: istnieje starsze źródło cytatu drugiego, ale nie mogę go teraz znaleźć).
źródło
I find the discussion (in general, and here) somewhat boring and repetitive
i na próżno mówić o drobiazgach lub nowych gwarach, dodałbym. Nadal nie mogę rozróżnić później między naukowcami danych, naukowcami chrześcijańskimi i naukowcami danych.Ludzie inaczej definiują Data Science, ale myślę, że wspólną częścią jest:
Wbrew nazwie, rzadko jest to „nauka”. Oznacza to, że w informatyce nacisk kładzie się na praktyczne wyniki (jak w inżynierii), a nie na dowody, matematyczną czystość lub rygor charakterystyczny dla nauk akademickich. Rzeczy muszą działać i nie ma różnicy, czy jest to oparte na pracy naukowej, wykorzystaniu istniejącej biblioteki, własnego kodu lub zaimprowizowanego włamania.
Statistician nie jest programistą (może używać długopisu i papieru oraz specjalnego oprogramowania). Ponadto niektóre zaproszenia do pracy w dziedzinie danych nie mają nic wspólnego ze statystykami. Np. To inżynieria danych, taka jak przetwarzanie dużych zbiorów danych, nawet jeśli najbardziej zaawansowane matematyki mogą obliczać średnią (osobiście nie nazwałbym tego działania „nauką danych”). Co więcej, „nauka o danych” jest przełamana, więc styczne prace wykorzystują ten tytuł - w celu zwabienia kandydatów lub podniesienia ego obecnych pracowników.
Podoba mi się taksonomia odpowiedzi Michaela Hochstera na Quora :
W tym sensie naukowiec danych typu A jest statystykiem, który może programować. Ale nawet w części ilościowej mogą istnieć osoby z większym doświadczeniem w informatyce (np. Uczenie maszynowe) niż zwykłe statystyki lub takie, które koncentrują się np. Na wizualizacji danych.
I diagram Venna Data Science (tutaj: hackowanie ~ programowanie):
zobacz także alternatywne diagramy Venna ( to i tamto ). Lub nawet tweet , choć humorystyczny, pokazujący zrównoważoną listę typowych umiejętności i działań naukowca danych:
Zobacz także ten post: Analityk danych - statystyk, programista, konsultant i wizualizator? .
źródło
Istnieje wiele badań w dziedzinie nauki o danych. Podoba mi się ten , ponieważ próbuje analizować profile osób, które faktycznie zajmują się badaniami danych. Zamiast wykorzystywać niepotwierdzone dowody lub uprzedzenia autora, wykorzystują techniki analizy danych do analizy DNA naukowca.
Patrzenie na umiejętności wymienione przez badaczy danych jest dość odkrywcze. Zauważ, że 20 najlepszych umiejętności zawiera wiele umiejętności informatycznych.
AKTUALIZACJA:
Jeśli zrobisz doktorat, najprawdopodobniej już jesteś naukowcem, szczególnie jeśli opublikowałeś artykuły i aktywne badania. Jednak nie musisz być naukowcem, aby być naukowcem danych. W niektórych firmach, takich jak Walmart (patrz poniżej), jest kilka ról, w których wymagany jest tytuł doktora, ale zwykle naukowcy zajmujący się danymi mają stopnie BS i MS, jak widać na poniższych przykładach.
Jak widać z powyższej tabeli, najprawdopodobniej będziesz musiał mieć dobre umiejętności programowania i obsługi danych. Ponadto często nauka danych wiąże się z pewnym, często „głębokim” doświadczeniem w uczeniu maszynowym. Z pewnością możesz nazywać się naukowcem danych, jeśli masz doktorat ze statystyk. Jednak doktorat z informatyki w najlepszych szkołach może być bardziej konkurencyjny niż absolwenci statystyk, ponieważ mogą mieć dość silną wiedzę z zakresu statystyki stosowanej, którą uzupełniają silne umiejętności programistyczne - pożądana kombinacja przez pracodawców. Aby im przeciwdziałać, musisz zdobyć silne umiejętności programistyczne, więc w równowadze będziesz bardzo konkurencyjny. Co ciekawe, zwykle wszystkie doktoraty ze statystyk będą miały pewne doświadczenie w programowaniu, ale w dziedzinie analizy danych często wymagania są znacznie wyższe,
Dla mnie zaletą posiadania doktora w statystykach jest problem opisany w pozostałej części zdania „walet wszystkich zawodów”, który zwykle jest odrzucany: „mistrz żadnego”. Dobrze jest mieć ludzi, którzy wiedzą trochę po trochu wszystkiego, ale zawsze szukam ludzi, którzy również wiedzą coś głęboko, czy to statystyki, czy informatyka nie są tak ważne. Ważne jest to, że facet jest w stanie dotrzeć do dna, jest to przydatna cecha, gdy jej potrzebujesz.
W ankiecie wymieniono również najlepszych pracodawców badaczy danych. Najwyraźniej Microsoft jest na szczycie, co było dla mnie zaskakujące. Jeśli chcesz uzyskać lepszy obraz tego, czego szukają, pomocne jest przeszukanie LinkeIn z „nauką danych” w sekcji Praca. Poniżej dwa fragmenty ofert pracy MS i Walmart w LinkedIn, aby podkreślić.
Microsoft Data Scientist
Zauważ, że znajomość pakietów statystyk to tylko plus, ale wymagana jest doskonała znajomość programowania w Javie.
Walmart, Data Scientist
W tym przypadku doktorat jest preferowany, ale nazywa się go tylko informatyką. Komputery rozproszone z Hadoop lub Spark są prawdopodobnie niezwykłą umiejętnością dla statystyków, ale niektórzy fizycy teoretyczni i matematycy stosują podobne narzędzia.
AKTUALIZACJA 2:
„Już czas zabić tytuł„ Data Scientist ””, mówi Thomas Davenport, który był współautorem artykułu w Harvard Business Review w 2012 roku zatytułowanym „Data Scientist: The Sexiest Job of the 21st Century”, co zapoczątkowało szaleństwo naukowca:
źródło
Gdzieś to przeczytałem (EDYCJA: Josh Will wyjaśnia swój tweet ):
Ten cytat można krótko wyjaśnić w tym procesie analizy danych . Pierwsze spojrzenie na ten schemat wygląda jak „dobrze, gdzie jest część programowania?”, Ale jeśli masz mnóstwo danych, musisz być w stanie je przetworzyć.
źródło
Napisałem kilka odpowiedzi i za każdym razem, gdy były długie, i ostatecznie zdecydowałem, że wstaję na mydelniczce. Myślę jednak, że w tej rozmowie nie zbadano w pełni dwóch ważnych czynników:
The Science in Data Science. Podejście naukowe to takie, w którym próbujesz zniszczyć własne modele, teorie, cechy, wybory techniki itp. I tylko wtedy, gdy nie możesz tego zrobić, akceptujesz, że wyniki mogą być przydatne. Jest to sposób myślenia i wielu najlepszych naukowców, których spotkałem, ma wykształcenie z zakresu nauk ścisłych (chemia, biologia, inżynieria).
Data Science to szeroka dziedzina. Dobry wynik Data Science zwykle obejmuje niewielki zespół Data Scientists, każdy z własną specjalizacją. Na przykład jeden członek zespołu jest bardziej rygorystyczny i statystyczny, inny jest lepszym programistą z wykształceniem inżynieryjnym, a drugi jest silnym konsultantem z doświadczeniem biznesowym. Wszyscy trzej szybko uczą się tematyki, a wszyscy trzej są ciekawi i chcą znaleźć prawdę - jakkolwiek bolesną - i zrobić to, co leży w najlepszym interesie (wewnętrznego lub zewnętrznego) klienta, nawet jeśli klient tego nie zrobi. nie rozumiem.
Modą ostatnich kilku lat - myślę, że teraz zanika - jest rekrutacja informatyków, którzy opanowali technologie klastrowe (ekosystem Hadoop itp.) I twierdzą, że jest to idealny Data Scientist. Myślę, że właśnie z tym spotkał się PO, i radziłbym PO, aby wykorzystał swoje mocne strony w rygorystyczności, poprawności i naukowym myśleniu.
źródło
Myślę, że Bitwise obejmuje większość mojej odpowiedzi, ale dodam 2c.
Nie, przepraszam, ale statystyki nie są naukowcami danych, przynajmniej w oparciu o to, jak większość firm określa dziś rolę. Zauważ, że definicja zmieniła się z czasem, a jednym z wyzwań dla praktyków jest upewnienie się, że pozostają aktualne.
Podam kilka typowych powodów, dla których odrzucamy kandydatów na role „Data Scientist”:
Oczywiście dla młodszej roli nie możesz mieć wszystkich powyższych. Ale ile z tych umiejętności możesz sobie pozwolić na zaginięcie i podjęcie pracy?
Wreszcie, aby wyjaśnić, najczęstszym powodem odrzucania nie-statystyków jest właśnie brak nawet podstawowej wiedzy o statystykach. I gdzieś istnieje różnica między inżynierem danych a naukowcem danych. Niemniej inżynierowie danych zwykle ubiegają się o te role, ponieważ wiele razy uważają, że „statystyki” to tylko średnia, wariancja i rozkład normalny. Możemy więc dodać kilka istotnych, ale przerażających modnych słów kluczowych w opisach stanowisk, aby wyjaśnić, co rozumiemy przez „statystyki” i zapobiec nieporozumieniom.
źródło
Pozwól mi zignorować szum i modne słowa. Myślę, że „Data Scientist” (lub jakkolwiek to nazwać) to prawdziwa rzecz, która różni się od statystyki. Istnieje wiele rodzajów stanowisk, które faktycznie są badaczami danych, ale nie mają takiej nazwy - jednym z przykładów są ludzie pracujący w genomice.
Z mojego punktu widzenia badacz danych to ktoś, kto ma umiejętności i wiedzę specjalistyczną do projektowania i przeprowadzania badań na dużych ilościach złożonych danych (np. Wysoce wymiarowych, w których mechanizmy leżące u podstaw są nieznane i złożone).
To znaczy:
źródło
Wszystkie wspaniałe odpowiedzi, jednak w moim doświadczeniu w poszukiwaniu pracy zauważyłem, że termin „naukowiec danych” był mylony z „młodszym analitykiem danych” w umysłach osób rekrutujących, z którymi miałem kontakt. Tak więc wielu miłych ludzi bez doświadczenia w statystyce oprócz tego wstępnego kursu, który odbyli kilka lat temu, teraz nazywają siebie naukowcami danych. Jako osoba z wykształceniem informatycznym i wieloletnim doświadczeniem jako analityk danych, w późniejszym okresie mojej kariery doktorat z statystyki, sądząc, że pomogłoby mi to wyróżnić się z tłumu, znajduję się w nieoczekiwanie dużym tłumie „naukowców danych” „. Myślę, że mógłbym wrócić do „statystyk”!
źródło
Jestem młodszym pracownikiem, ale moje stanowisko to „naukowiec danych”. Myślę, że odpowiedź Bitwise jest trafnym opisem tego, do czego mnie zatrudniono, ale chciałbym dodać jeszcze jeden punkt w oparciu o moje codzienne doświadczenia w pracy:
Nauka jest procesem badawczym. Kiedy dane są środkiem, za pomocą którego odbywa się to zapytanie, dzieje się nauka danych. Nie oznacza to, że każdy, kto eksperymentuje lub bada dane, musi być naukowcem danych, podobnie jak nie każdy, kto eksperymentuje lub bada okablowanie, musi być inżynierem elektrykiem. Ale to oznacza, że można zdobyć wystarczającą liczbę szkoleń, aby zostać profesjonalnym „poszukiwaczem danych”, w taki sam sposób, w jaki można zdobyć wystarczające szkolenie, aby zostać profesjonalnym elektrykiem. Szkolenie to składa się mniej więcej z punktów w odpowiedzi Bitwise, których statystyki są składnikiem, ale nie całością.
Odpowiedź Piotra to także miłe podsumowanie wszystkich rzeczy, które
muszę zrobić,aby wiedzieć, jak to zrobić w danym tygodniu. Do tej pory moja praca polegała głównie na usuwaniu szkód wyrządzonych przez byłych pracowników, którzy należeli do elementu „Strefy zagrożenia” na schemacie Venna.źródło
Ostatnio zainteresowałem się także nauką danych jako karierą, a kiedy myślę o tym, czego dowiedziałem się o pracy w branży danych w porównaniu z licznymi kursami statystycznymi, które wziąłem (i cieszyłem się!), Zacząłem myśleć o naukowcach danych jako o informatycy, którzy zwrócili uwagę na dane. W szczególności zauważyłem następujące główne różnice. Zauważ jednak, że różnice pojawiają się w nastroju. Poniższe odzwierciedla moje subiektywne wrażenia i nie twierdzę, że jest ogólna. Tylko moje wrażenia!
W statystykach bardzo zależy ci na rozkładach, prawdopodobieństwach i procedurach wnioskowania (jak wykonać testy hipotez, które są podstawowymi rozkładami itp.). Z tego, co rozumiem, nauka o danych najczęściej opiera się na prognozowaniu, a obawy związane z wnioskami wnioskowymi są do pewnego stopnia pochłaniane przez procedury informatyczne, takie jak walidacja krzyżowa.
Na kursach statystycznych często po prostu tworzyłem własne dane lub korzystałem z gotowych danych, które są dostępne w dość czystym formacie. Oznacza to, że ma ładny prostokątny format, jakiś arkusz kalkulacyjny programu Excel lub coś podobnego, który ładnie pasuje do pamięci RAM. Oczywiste jest czyszczenie danych, ale nigdy nie miałem do czynienia z „wydobywaniem” danych z sieci, nie mówiąc już o bazach danych, które musiały zostać skonfigurowane w celu przechowywania danych, które nie mieszczą się już w pamięci RAM. Mam wrażenie, że ten aspekt obliczeniowy jest znacznie bardziej dominujący w informatyce.
Być może odzwierciedla to moją niewiedzę na temat tego, co statystycy robią w typowych pracach statystycznych, ale przed analizą danych nigdy nie myślałem o budowaniu modeli w większym produkcie. Musiała zostać przeprowadzona analiza, problem statystyczny do rozwiązania, jakiś parametr do oszacowania i to wszystko. W informatyce wydaje się, że często (choć nie zawsze) modele predykcyjne są wbudowane w coś większego. Na przykład gdzieś klikasz, a w ciągu milisekund algorytm predykcyjny zdecyduje, co zostanie wyświetlone w wyniku. Tak więc, chociaż w statystykach zawsze zastanawiałem się „jaki parametr możemy oszacować i jak to zrobić elegancko”, wydaje się, że w nauce o danych skupiono się bardziej na „tym, co możemy przewidzieć, że jest potencjalnie przydatne w produkcie danych” .
Ponownie powyższe nie próbuje podać ogólnej definicji. Właśnie wskazuję główne różnice, które sam dostrzegłem. Nie jestem jeszcze naukowcem danych, ale mam nadzieję, że przejdę w przyszłym roku. W tym sensie weź moje dwa centy z odrobiną soli.
źródło
Mówię, że Data Scientist to rola, w której tworzy się wyniki biznesowe czytelne dla człowieka, używając metod, dzięki którym wynik jest statystycznie solidny (znaczący).
Jeśli jakakolwiek część tej definicji nie jest przestrzegana, mówimy o deweloperze, prawdziwym naukowcu / statystyce lub inżynierze danych.
źródło
Zawsze lubię przenikać do istoty sprawy.
źródło
Analiza danych to multidyscyplinarne połączenie wnioskowania danych, rozwoju algorytmu i technologii w celu rozwiązywania złożonych problemów analitycznych. Jednak ze względu na brak danych naukowców kariera w dziedzinie nauki danych może naprawdę stworzyć wiele możliwości. Jednak organizacje szukają certyfikowanych specjalistów z SAS, Data Science Council of America (DASCA), Hortonworks itp. Mam nadzieję, że to dobra informacja!
źródło
Badacze danych mają bardzo biegłe umiejętności w zakresie programowania w języku Python, MySQL i Java.
Bardzo dobrze rozumieją funkcje analityczne, bardzo dobrze matematykę, statystykę, eksplorację danych, umiejętności analizy predykcyjnej, a także bardzo dobrze znają języki kodowania, takie jak Python i R.
Wielu naukowców zajmujących się danymi ma obecnie doktoraty. lub tytuł magistra faktycznie według badań tylko około 8% ma po prostu tytuł licencjata, więc jest o wiele bardziej dogłębny.
Budowanie modeli statystycznych, które podejmują decyzje na podstawie danych. Każda decyzja może być trudna, np. Zablokować renderowanie strony lub miękka, np. Przypisać ocenę za złośliwość strony, która jest wykorzystywana przez systemy działające w dół lub przez ludzi.
Przeprowadzanie eksperymentów przyczynowościowych, które próbują przypisać pierwotną przyczynę obserwowanego zjawiska. Można tego dokonać poprzez zaprojektowanie eksperymentów A / B lub jeśli eksperyment A / B nie jest w stanie zastosować epidemiologicznego podejścia do problemu, np. @ Model przyczynowy Rubin
Identyfikowanie nowych produktów lub funkcji wynikających z odblokowywania wartości danych; bycie liderem w zakresie wartości danych. Dobrym przykładem tego jest funkcja rekomendacji produktów, którą Amazon po raz pierwszy udostępnił masowej publiczności.
źródło
Aby odpowiedzieć na pytanie „Czym jest specjalista od danych?” Warto być świadomym różnicy między Data Scientist a Data Mechanic, jak zauważono w http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/
źródło