Jaką część przekłamywania danych stanowi praca naukowca?

44

Obecnie pracuję jako specjalista ds. Danych w firmie detalicznej (moja pierwsza praca jako DS, więc to pytanie może wynikać z mojego braku doświadczenia). Mają ogromne zaległości w naprawdę ważnych projektach związanych z nauką danych, które miałyby bardzo pozytywny wpływ, gdyby zostały wdrożone. Ale.

W firmie nie ma potoków danych, standardowa procedura polega na tym, że przekazują mi gigabajty plików TXT, gdy tylko potrzebuję informacji. Pomyśl o tych plikach jako tabelarycznych dziennikach transakcji przechowywanych w tajemnej notacji i strukturze. Żadne informacje nie są zawarte w jednym źródle danych i nie mogą oni udzielić mi dostępu do swojej bazy danych ERP ze względów bezpieczeństwa.

Wstępna analiza danych dla najprostszego projektu wymaga brutalnego, rozdzierającego duszenia danych. Ponad 80% czasu spędzonego przez projekt to parsowanie tych plików i przechodzenie między źródłami danych w celu zbudowania wykonalnych zestawów danych. Nie jest to problem po prostu obsługi brakujących danych lub ich wstępnego przetwarzania. Chodzi o pracę, jaką zajmuje zbudowanie danych, które można obsłużyć w pierwszej kolejności ( rozwiązanie dba lub inżynieria danych, a nie nauka danych? ).


1) Wydaje się, że większość pracy w ogóle nie jest związana z nauką danych. Czy to jest dokładne?

2) Wiem, że nie jest to firma oparta na danych, posiadająca dział inżynierii danych wysokiego poziomu, ale moim zdaniem, aby zbudować zrównoważoną przyszłość projektów związanych z nauką danych, wymagany jest minimalny poziom dostępności danych . Czy się mylę?

3) Czy ten typ konfiguracji jest powszechny w firmie o poważnych potrzebach w zakresie analizy danych?

Victor Valente
źródło
Czy określiłeś, w jakim formacie chcesz uzyskać informacje? I dać im instrukcje, jak mogą to zrobić za pomocą ERP?
jonnor
@jonnor Oczywiście. Pracuję tutaj od prawie dwóch lat i od pierwszego dnia wyjaśniłem, w jaki sposób możemy zbudować lepszą platformę dla dostępności danych. Istnieje jednak silny opór przed zmianą tego, co firma robi od 30 lat.
Victor Valente
13
Zacznij śledzić swoje godziny i przekonwertuj go na koszt, jaki marnują Twój czas, przekształcając TXT z powrotem do użytecznego formatu. Założę się, że jak tylko będą mieli $, mogą to zrobić.
Nelson
Jeśli jest to obciążenie dla twojego czasu, możesz go zlecić na zewnątrz.
Mięsak
Uważam, że to mylące, że firma zatrudni Data Data Scientist i nadal będzie odporna na zmiany. Powinieneś pokazać im ilość zmarnowanego czasu i niebezpieczeństwo przechowywania danych w długich plikach TXT bez prawdziwego bezpieczeństwa wokół nich
Pedro Henrique Monforte

Odpowiedzi:

27
  1. Wydaje się, że większość pracy w ogóle nie jest związana z nauką danych. Czy to jest dokładne?

    tak

  2. Wiem, że nie jest to firma oparta na danych z działem inżynierii danych wysokiego poziomu, ale moim zdaniem nauka danych wymaga minimalnego poziomu dostępności danych. Czy się mylę?

    Nie mylisz się, ale takie są realia prawdziwego życia.

  3. Czy tego typu konfiguracja jest powszechna w firmie o poważnych potrzebach w zakresie analizy danych?

    tak

Z technicznego punktu widzenia musisz przyjrzeć się rozwiązaniom ETL, które mogą ułatwić Ci życie. Czasami jedno narzędzie może znacznie szybciej niż inne czytać określone dane. Np. Readxl R. jest rzędami zachowań szybszych niż pandy pytona podczas czytania plików xlsx; możesz użyć R, aby zaimportować pliki, a następnie zapisać je w formacie przyjaznym dla Pythona (parkiet, SQL itp.). Wiem, że nie pracujesz na plikach xlsx i nie mam pojęcia, czy używasz Pythona - to był tylko przykład.

Z praktycznego punktu widzenia dwie rzeczy:

  • Przede wszystkim zrozum, co jest technicznie możliwe. W wielu przypadkach osoby informujące o tym wiedzą, że są analfabetami informatycznymi, którzy martwią się kwestiami biznesowymi lub zgodnością, ale nie mają pojęcia, co jest i nie jest wykonalne z punktu widzenia IT. Spróbuj porozmawiać z DBA lub z kimkolwiek zarządzającym infrastrukturą danych. Zrozum, co jest technicznie możliwe. NASTĘPNIE dopiero wtedy spróbuj znaleźć kompromis. Np. Nie dadzą ci dostępu do swojego systemu, ale przypuszczam, że kryje się za tym baza danych? Może mogą wyodrębnić dane do innych formatów? Może mogą wyodrębnić instrukcje SQL, które definiują typy danych itp.?

  • Ludzie biznesu są bardziej skłonni do pomocy, jeśli możesz uzasadnić, że jest to w ICH interesie. Jeśli nawet nie wierzą w to, co robisz, pech ...

PythonGuest
źródło
2
Doskonały punkt na temat znalezienia / zbudowania rozwiązania ETL. Wystarczy dodać: wybierz konfigurację, w której czujesz się komfortowo i którą możesz łatwo czytać / debugować. Na wczesnych etapach automatyzacji zadań jest to nawet ważniejsze niż znalezienie najszybszego narzędzia do przechowywania danych. Jeśli są to fragmenty tekstu, najprawdopodobniej często będą działać przez noc, a twoja znajomość narzędzia / frameworka / języka może sprawić różnicę między wybudzaniem się z dobrych danych lub czymś, co musisz zacząć od nowa. Tylko jedna zmiana może zniweczyć wszelkie korzyści związane z wydajnością. Lepiej być stabilnym z mniejszą liczbą błędów niż iść szybko i potknąć się.
Jason
2
Prawdziwe. Ale też nie przesadzajcie z optymizmem. Wybierz mądrze swoje priorytety. Jeśli importowanie danych jest jednorazowe, nie marnuj dni na szukanie sposobów skrócenia czasu importu z 2 godzin do 30 minut. Itd.
PythonGuest
39

Jest to sytuacja, którą wiele blogów, firm i gazet uznaje za coś rzeczywistego w wielu przypadkach.

W tym artykule Wrangling danych dla dużych zbiorów danych: Wyzwania i szanse jest cytat na ten temat

naukowcy danych spędzają od 50 do 80 procent swojego czasu

zbieranie i przygotowywanie niesfornych danych cyfrowych.

Możesz również przeczytać źródło tego cytatu w tym artykule z The New York Times, dla naukowców zajmujących się dużymi danymi, „Praca woźnego” jest kluczową przeszkodą dla wglądu

Niestety, prawdziwy świat nie przypomina Kaggle. Nie dostajesz pliku CSV lub Excel, który możesz po prostu rozpocząć eksplorację danych z odrobiną czyszczenia. Musisz znaleźć dane w formacie, który nie jest odpowiedni do twoich potrzeb.

Możesz w jak największym stopniu wykorzystać stare dane i spróbować dostosować przechowywanie nowych danych w procesie, który będzie łatwiejszy dla ciebie (lub przyszłego kolegi).

Tasos
źródło
4
Nigdzie nie należy wymieniać Forbesa wraz ze słowami „data science”.
gented
50–80% na podstawie (cytat) „wywiadów i szacunków ekspertów”
oW_
3
@gented Oparty na opinii komentarz na temat ankiety opartej na opiniach w artykule opartym na opinii umieszczonym na podstawie odpowiedzi na pytanie oparte na opinii. Kto by pomyślał, że znajdziesz to w „Data Science” SE?
Keeta
25

Wydaje się, że większość pracy w ogóle nie jest związana z nauką danych. Czy to jest dokładne?

Taka jest rzeczywistość każdego projektu dotyczącego danych. Google faktycznie to zmierzyło i opublikował artykuł „Ukryty dług techniczny w systemach uczenia maszynowego” https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

wprowadź opis zdjęcia tutaj

Wynik pracy odzwierciedla również moje doświadczenie. Zdecydowana większość czasu poświęcana jest na pozyskiwanie, czyszczenie i przetwarzanie danych.

Shamit Verma
źródło
7
  1. Wydaje się, że większość pracy w ogóle nie jest związana z nauką danych. Czy to jest dokładne?

    Wrangling danych jest zdecydowanie w opisie zadania Data Scientist. Na pewnym poziomie musisz zrozumieć proces generowania danych, aby użyć go do napędzania rozwiązań. Jasne, ktoś specjalizujący się w ETL mógłby to zrobić szybciej / bardziej wydajnie, ale zrzuty danych nie są rzadkie w prawdziwym świecie. Jeśli nie podoba ci się ten aspekt nauki o danych, może być okazja do ściślejszej współpracy z zasobami IT, aby uzyskać odpowiednie źródło danych w hurtowni, do której masz dostęp. Alternatywnie możesz znaleźć zadanie, które już zawiera dane w lepszej kolejności.

  2. Wiem, że nie jest to firma oparta na danych z działem inżynierii danych wysokiego poziomu, ale moim zdaniem nauka danych wymaga minimalnego poziomu dostępności danych. Czy się mylę?

    Myślę, że minimalny poziom to pliki txt. Jeśli masz dostęp do danych za pomocą plików tekstowych, powinieneś mieć dostęp do danych w bazie danych (przekaż to z przełożonymi).

  3. Czy tego typu konfiguracja jest powszechna w firmie o poważnych potrzebach w zakresie analizy danych?

    Tak. Jesteś NAUKOWCĄ danych; jesteś ekspertem. Twoim zadaniem jest edukowanie innych na temat nieefektywności obecnej struktury danych i tego, jak możesz pomóc. Dane, które nie są użyteczne, nikomu nie pomagają. Masz okazję poprawić sytuację i kształtować przyszłość firmy.

Underminer
źródło
6

Jako kolejny nowicjusz w Data Science, mogę tylko dodać, że nie sądzę, że twoje doświadczenie jest wyjątkowe, mój zespół około 10 najwyraźniej nie zrobił żadnego DS od roku (jeden mały projekt, który zajmował 2 zespół). Wynika to z obietnicy skutecznego rurociągu, nad którym zespół pracował, ale wciąż nie dostarcza danych. Najwyraźniej retencja była w przeszłości dość słaba i istnieje ciągła obietnica środowiska MS Azure świętego Graala dla przyszłych projektów DS.

Aby odpowiedzieć:

1) Tak, całkowicie dokładne

2) Nie, masz rację, ale to bitwa pod górę, aby uzyskać dostęp do potrzebnych danych (jeśli w ogóle istnieją).

3) Jestem pewien, że istnieją firmy, które są lepsze od innych. Jeśli nie możesz tego znieść w obecnej firmie, 2 lata to przyzwoity okres, zacznij szukać jaśniejszych rzeczy (uważaj, jak wyrażasz chęć odejścia z obecnej pracy, coś w rodzaju „chęci pracy z bardziej dynamiczną pracą” zespół ”brzmiałby lepiej niż„ moja stara firma nie dostarczy mi danych ”).

Oliver Houston
źródło
5

Jeśli spojrzysz na to z perspektywy „to nie jest moja praca, więc dlaczego miałbym to robić”, to jest to dość powszechny, ogólny problem niezwiązany z nauką danych. Ostatecznie twoim zadaniem jest robić wszystko, co szef ci każe, ale w praktyce nie ma powodu, by szef był dyktatorski w tej sprawie i zwykle można ich przekonać. A przynajmniej dadzą szczere wyjaśnienie, dlaczego tak musi być. Ale jeśli chodzi o odwoływanie się do władzy, nie ma oficjalnej definicji „Data Science”, która mówi, że można wykonać najwyżej X% czyszczenia danych. Organem jest ten, kto ci płaci, o ile ma on prawo do zaprzestania płacenia ci.

Możesz także spojrzeć na to z innej perspektywy: czy to dobry użytek z twojego czasu? Wygląda na to, że wykonałeś jakieś zadania (co rozumiesz przez „naukę danych”), ale musisz zrobić coś innego (co nazywasz „przekręcaniem danych”). Opisy stanowisk i osobiste odczucia są nieco poza tym punktem, ponieważ istnieje coś bardziej istotnego: firma prawdopodobnie płaci ci sporo pieniędzy za robienie czegoś, co tylko Ty możesz zrobić (nauka danych). Ale zamiast tego musisz robić inne rzeczy, co mogą zrobić inni ludzie, którzy są kombinacją bardziej zdolnych, bardziej zmotywowanych lub tańszych. Jeśli przekłamanie danych może zostać wykonane przez kogoś, kto zarabia połowę twojej pensji, nie ma sensu płacić ci dwa razy więcej za to samo. Jeśli można to zrobić szybciejprzez kogoś, kto zapłacił tę samą pensję, obowiązuje ta sama logika. Dlatego marnowanie zasobów (zwłaszcza pieniędzy) wymaga od firmy przypisania tego zadania do Ciebie. Patrząc na to z tej perspektywy, może być znacznie łatwiej sprawić, by przełożeni zobaczyli twoją stronę rzeczy.

Oczywiście, pod koniec dnia ktoś musi przekłamać dane. Być może najtańszym, najszybszym i najłatwiejszym sposobem na zrobienie tego - najlepszą osobą do pracy, jesteś Ty. W takim razie nie masz szczęścia. Możesz próbować twierdzić, że nie jest to częścią twojego kontraktu, ale jakie są szanse, że byli wystarczająco naiwni, aby umieścić coś tak specyficznego w umowie?

Whelibeiren
źródło
3

Być może po prostu:

  • Czy robiąc to na ślepo, czy po analizie danych, tworzysz zmienne i binowanie liczb?
  • Gdyby rówieśnicy sprawdzili twoje ustalenia, gdyby mieli pytania dotyczące konkretnych fragmentów danych, czy zawstydziłbyś się, gdybyś ich nie znał?

Musisz pracować z danymi i rozumieć je - w tym proste czynności od naprawiania niespójności (NULL, puste ciągi, „-”) po zrozumienie, w jaki sposób część danych przechodzi od zebrania do wyświetlenia. Przetwarzanie go obejmuje znajomość tych samych informacji, więc jest to częściowo praca, którą i tak musiałbyś wykonać.

Teraz wygląda na to, że ta firma mogłaby skorzystać z utworzenia jakiegoś darmowego wystąpienia MySQL (lub podobnego) do przechowywania danych. Dobrym pomysłem jest również próba elastyczności podczas projektowania własnego kodu - posiadanie pośredniego zestawu danych przetwarzanych danych, które moim zdaniem przydałoby się, jeśli możesz (i nie możesz tego zrobić w MySQL).

Ale oczywiście wciąż konfigurujesz wszystko od zera. Nie jest to łatwy proces, ale to „doświadczenie edukacyjne” jest co najmniej dobre do umieszczenia w CV.

David M.
źródło
3

1) Wydaje się, że większość pracy w ogóle nie jest związana z nauką danych. Czy to jest dokładne? Moim zdaniem, Data Science nie może oderwać się od drażnienia danych. Ale, jak już powiedziałeś, pojawi się pytanie, ile procent Data Wrangling jest wymagany przez Data Scientist. Zależy to od przepustowości organizacji i zainteresowania osoby taką pracą. Z mojego doświadczenia od 15 do 16 lat jako DS, zawsze spędzałem około 60% do 70% na działalności związanej z przekłamywaniem danych i spędzałem maksymalnie 15% czasu na analizie. więc odbieraj połączenia.

2) Wiem, że nie jest to firma oparta na danych z działem inżynierii danych wysokiego poziomu, ale moim zdaniem nauka danych wymaga minimalnego poziomu dostępności danych. Czy się mylę? Znowu zależy to od zasad bezpieczeństwa organizacji. Nie mogą zostawić wszystkiego tobie i mają własne problemy z bezpieczeństwem, aby ujawnić dane osobie, która jest pracownikiem tymczasowym (przepraszam, że używam tych słów :-()

3) Czy ten typ konfiguracji jest powszechny w firmie o poważnych potrzebach w zakresie analizy danych? Wydaje mi się, że tego rodzaju firmy wymagają największej uwagi od Data Scientists, aby przekonać się, że modelowanie oparte na danych jest przyszłością, która pozwoli utrzymać ich działalność. :-)

Dałem swój wkład w myślenie o biznesie zamiast technicznych podstaw. :-) Mam nadzieję, że jasno wybieram słowa.

użytkownik70920
źródło
3

W swoim przemówieniu „Big Data to cztery różne problemy”, zdobywca nagrody Turinga Michael Stonebraker wymienia ten konkretny problem jako duży problem ( wideo , slajdy )

Mówi, że istnieje wiele otwartych problemów w tym obszarze: Ingest, Transform (np. Euro / dolar), Clean (np. -99 / Null), Mapowanie schematów (np. Płace / wynagrodzenie), Konsolidacja jednostek (np. Mike Stonebraker / Michael Łamacz Kamieni)

Istnieje wiele firm / produktów próbujących rozwiązać ten problem, takich jak Tamr, Alteryx, Trifacta, Paxata, Google Refine, pracujących nad rozwiązaniem tego problemu.

Dopóki ten obszar nie dojrzeje, duża część pracy naukowców zajmujących się przetwarzaniem danych będzie rzeczywiście polegała na przekłamywaniu danych.

hojusaram
źródło