Czy badacze danych używają Excela?

37

Uważałbym się za naukowca danych czeladnika. Jak większość (tak myślę), robiłem pierwsze wykresy i pierwsze agregacje w liceum i na studiach, używając Excela. Przechodząc przez studia, studia i ~ 7 lat doświadczenia zawodowego, szybko wybrałem narzędzia, które uważam za bardziej zaawansowane, takie jak SQL, R, Python, Hadoop, LaTeX itp.

Przeprowadzamy rozmowy kwalifikacyjne na stanowisko specjalisty ds. Danych, a jeden kandydat reklamuje się jako „starszy specjalista ds. Danych” (obecnie bardzo mętny termin) z ponad 15-letnim doświadczeniem. Zapytany, jaki jest jego ulubiony zestaw narzędzi, odpowiedział, że to Excel.

Wziąłem to za dowód, że nie był tak doświadczony, jak twierdziłby jego życiorys, ale nie był pewien. W końcu to, że nie jest to moje ulubione narzędzie, nie oznacza, że ​​nie należy ono do innych ludzi. Czy doświadczeni badacze danych używają programu Excel? Czy możesz założyć, że nie masz doświadczenia w korzystaniu z programu Excel?

JHowIX
źródło
Większość ogłoszeń o pracę w branży danych wymaga konkretnych umiejętności, takich jak R, Hadoop, cokolwiek. Czy zapomniałeś wspomnieć o tym w swojej reklamie? O ile twój nowy Data Scientist nie będzie pracował w bańce, będzie musiał współpracować z zespołem i prawdopodobnie będzie musiał pracować ze standardowym oprogramowaniem zespołu ...
Spacedman
1
cóż, jeśli nie skorzystają \LaTeX{}, nie zatrudniłbym ich. tylko żartuję ...
aeroNotAuto
1
@Spacedman: Przedstawiłem historię w niepotwierdzonym kontekście, ale naprawdę bardziej interesują mnie opinie ludzi na temat programu Excel niż wskazówki dotyczące zatrudnienia. Nasz zespół może korzystać z dowolnych narzędzi, które lubimy.
JHowIX,
1
Tak, patrz tutaj . Jeśli chodzi o dowcip, zobacz także tutaj .
Dirk Eddelbuettel
1
Niezależnie od podanych lat, oczekiwałbym od profesjonalisty danych listy Pro / Con co najmniej trzech narzędzi. Muszą wykazać zdolność do badania, ważenia opcji i komunikowania rozdzielczości. Nawet, a zwłaszcza w wywiadzie, spodziewałbym się prawdziwego zaangażowania i możliwości poszerzenia przeszłości o potencjalnie świetne, ale obecnie brakujące pytanie w rozmowie kwalifikacyjnej.
Dave

Odpowiedzi:

28

Większość nietechnicznych osób często używa programu Excel jako zamiennika bazy danych. Myślę, że to źle, ale do zaakceptowania. Jednak ktoś, kto podobno ma doświadczenie w analizie danych, po prostu nie może używać programu Excel jako swojego głównego narzędzia (z wyjątkiem oczywistego zadania polegającego na pierwszym spojrzeniu na dane). Wynika to z faktu, że program Excel nigdy nie był przeznaczony do tego rodzaju analiz, w związku z czym niezwykle łatwo jest popełniać błędy w programie Excel (nie oznacza to, że nie jest niewiarygodnie łatwo popełniać inny rodzaj błędów przy użyciu innych narzędzi, ale Excel jeszcze bardziej pogarsza sytuację.)

Podsumowując to, czego Excel nie ma i jest koniecznością dla każdej analizy:

  1. Odtwarzalność. Analiza danych musi być odtwarzalna.
  2. Kontrola wersji. Dobry dla współpracy, a także dla powtarzalności. Zamiast używać xls, użyj csv (wciąż bardzo złożony i ma wiele przypadków brzegowych, ale parsery csv są obecnie dość dobre).
  3. Testowanie. Jeśli nie masz testów, Twój kod jest uszkodzony. Jeśli kod jest uszkodzony, analiza jest gorsza niż bezużyteczna.
  4. Konserwowalność.
  5. Precyzja. Dokładności numerycznej, dokładnej analizy dat, między innymi, naprawdę brakuje w Excelu.

Więcej zasobów:

Europejski arkusz kalkulacyjny Grupa interesu ds. Ryzyka - opowieści grozy

Nie powinieneś używać arkusza kalkulacyjnego do ważnej pracy (mam na myśli)

Microsoft Excel może być najbardziej niebezpiecznym oprogramowaniem na świecie

Zniszcz swoje dane za pomocą Excela dzięki tej jednej dziwnej sztuczce!

Arkusze kalkulacyjne Excel są trudne do uzyskania

Robert Smith
źródło
Czy do przeglądania danych i szybkiej ich analizy są narzędzia powszechnie akceptowane przez profesjonalistów jako porównywalne, ale lepsze niż Excel? Jestem początkującym naukowcem zajmującym się danymi i głównie używam (Postgre) SQL, ale coś takiego jak Excel może być szybsze w pracy, jeśli tylko próbujesz.
sudo,
1
Ponadto muszę narzekać, że CSV nie jest standardem. Naprawdę musisz upewnić się, że wszystko, co się otwiera, zgadza się z tym, co je wyprodukowało. OpenOffice robi to dobrze i pozwala wybrać wiele opcji CSV podczas ładowania zamiast zakładać cokolwiek na temat formatu.
sudo,
@sudo Narzędzia zależą od wybranego języka programowania, który jest głównie osobistą preferencją. Podając tylko kilka przykładów, R był historycznie dobrym wyborem, Python zyskał popularność w analizie danych w ostatnich latach, Julia jest bardzo obiecującym nowicjuszem w tej dziedzinie. Większość języków programowania zapewnia dojrzałe biblioteki, które zapewniają struktury (np. Ramki danych) szczególnie odpowiednie do analizy danych, a wszystkie z nich są lepsze niż Excel. CSV został ustandaryzowany, ale niektóre szczegóły są implementowane w różny sposób, ale nie powinno to stanowić dużego problemu w codziennej pracy.
Robert Smith
Używam Pythona do lekkiego przetwarzania, ale tak naprawdę nie służy on celom programu Excel. Na przykład w programie Excel można używać narzędzi takich jak autofiltr i interaktywne wykresy. Zwykle przesyłam dane do pliku CSV, aby moje wyższe osoby mogły je obejrzeć w programie Excel lub coś w tym stylu.
sudo
@sudo Więc chcesz Pandy. Pandy zapewniają wiele metod manipulowania danymi. Obejmuje to podzbiór oparty na indeksie, kolumnach lub warunkach, który jest znacznie bardziej elastyczny i wydajny niż autofiltr. Następnie możesz wykreślić wynik ( df.plot()) i wyeksportować dane wyjściowe do csv ( df.to_csv('output.csv')). Pamiętaj, że analizy danych zwykle wymagają znacznie więcej niż filtrowania i kreślenia. Dlatego należy skupić się na poprawności, dlatego należy oddzielić prezentację od analizy. Wykonaj analizę w Pythonie (lub innym języku), udostępnij wyniki w csv, jeśli tego chcesz.
Robert Smith
15

Czy doświadczeni naukowcy danych używają programu Excel?

Widziałem doświadczonych naukowców zajmujących się danymi, którzy używają Excela - albo ze względu na swoje preferencje, albo ze względu na specyfikę miejsca pracy i środowiska IT w swoim miejscu pracy (na przykład wiele instytucji finansowych używa Excela jako głównego narzędzia przynajmniej do modelowania). Myślę jednak, że najbardziej doświadczeni badacze danych dostrzegają potrzebę korzystania z narzędzi optymalnych do określonych zadań i stosują to podejście.

Czy możesz założyć, że nie masz doświadczenia w korzystaniu z programu Excel?

Nie, nie możesz. Jest to następstwem moich wyżej wymienionych myśli. Analiza danych nie oznacza automatycznie dużych zbiorów danych - program Excel jest w stanie wykonać wiele prac związanych z analizą danych. Powiedziawszy to, jeśli specjalista ds. Danych (nawet doświadczony) nie ma wiedzy (przynajmniej podstawowej) o nowoczesnych narzędziach do analizy danych, w tym o dużych zasobach danych, jest to nieco niepokojące. Wynika to z faktu, że eksperymenty są głęboko zakorzenione w naturze nauki o danych, ponieważ eksploracyjna analiza danych jest jej istotną, a nawet kluczową częścią. Dlatego osoba, która nie ma ochoty eksplorować innych narzędzi w swojej dziedzinie, może zająć niższą pozycję wśród kandydatów w ogólnej zdolności do zajmowania stanowiska w dziedzinie danych (oczywiście jest to dość niejasne, ponieważ niektórzy ludzie bardzo szybko się uczą nowy materiał plus

Podsumowując, uważam, że najlepszą odpowiedzią doświadczonego badacza danych na pytanie dotyczące preferowanego narzędzia jest: Moje preferowane narzędzie to narzędzie optymalne, czyli takie, które najlepiej pasuje do danego zadania.

Aleksandr Blekh
źródło
5
Nigdy nie obwiniłbym kogoś za to, że nie zna Hadoopa, ale nawet w sytuacjach z małymi danymi mam wrażenie, że R. Jest po prostu miriada rzeczy, które możesz zrobić z R, których nie możesz zrobić z Excelem.
Martwi
@JHowIX: Czy znasz termin „wystarczająco dobry”? Jestem także wielkim fanem R i wolałbym to od wielu narzędzi, w tym Excela, każdego dnia. Jednak fakt, że R może zrobić więcej, nie oznacza, że ​​Excel (lub inne narzędzie odpowiednie do zadania) jest gorszy w określonym kontekście pracy. Tak więc, chociaż twoje obawy są uzasadnione (odnoszę się do tego, używając słowa „przeszkadzać”), może się zdarzyć, że dana osoba nie miała okazji / nie musiała tego zrobić. Pamiętaj, że mówisz o czasie, w którym istniał R, ale był popularny głównie w środowisku akademickim, a nauka o danych (zwana analizą danych lub podobną) nie była tak gorąca jak dzisiaj.
Aleksandr Blekh
13

Myślę, że większość ludzi odpowiada bez dobrej znajomości programu Excel. Excel (od 2010 r.) Ma w pamięci kolumnową bazę danych [wielostolikową], zwaną power pivot (która umożliwia wprowadzanie danych z csv / baz danych itp.), Umożliwiającą przechowywanie milionów wierszy (nie musi być ładowana do arkusza kalkulacyjnego) . Posiada również narzędzie ETL o nazwie power query, umożliwiające odczyt danych z różnych źródeł (w tym hadoop). I ma narzędzie do wizualizacji (podgląd mocy i mapa mocy). Wiele Data Science dokonuje agregacji i analizy najlepszych n, w których przoduje oś obrotu. Dodaj do tego interaktywny charakter tych narzędzi - każdy użytkownik może łatwo przeciągnąć i upuścić wymiar, w którym można rozbić wyniki i mam nadzieję, że zobaczysz korzyści. Więc tak, nie możesz uczyć się maszyn,

seanv507
źródło
Ciekawy. Jestem przyzwyczajony do powolnych i błędnych rzeczy, którymi jest Excel 1998-2008. Musisz wypróbować nowsze.
sudo
Chciałbym poprzeć odpowiedź seanv507 milion razy. Większość odpowiedzi tutaj pokazuje, że wiele osób nie zdaje sobie sprawy z tego, jak potężne są nowsze wersje programu Excel. I pamiętaj, że podczas korzystania z nowych narzędzi do analizy danych (np. Zapytanie mocy, Power
Pivot, język
Ludzie bez wykształcenia biznesowego nie używają programu Excel. Kropka. Biorąc pod uwagę, że absolwenci biznesu zwykle nie zajmują się informatyką, możesz zrozumieć ignorancję.
NoName
5

W swojej książce Data Smart John Foreman rozwiązuje typowe problemy związane z naukami o danych (grupowanie, naiwne bayes, metody łączenia, ...) za pomocą Excela. Rzeczywiście zawsze dobrze jest mieć trochę znajomości języka Python lub R, ale myślę, że Excel nadal może wykonać większość pracy!

Anil Narassiguin
źródło
2
Właściwie sam byłem zaskoczony, kiedy przeczytałem książkę, którą można wiele zrobić w programie Excel. I że ma wbudowane ewolucyjne i inne nieliniowe solwery! Zaletą programu Excel jest to, że twoja praca, szczególnie jeśli jesteś w kodzie odtwarzalnym, jest dostępna dla większej liczby osób niż kod R lub Python.
Victor Ma
5

Dziwi mnie, ilu ludzi przywiązuje się do fajności zawodu, a nie do faktycznej pracy do wykonania. Excel jest doskonałym narzędziem, z darmowymi Powerpivot, Powerquery, potrafi wiele. (nie są one dostępne w systemie OS X). A jeśli znasz VBA, możesz zrobić fajne rzeczy. A jeśli dodasz tę wiedzę na temat Pythona, możesz połączyć pierwsze kroki ekstrakcji danych i manipulacji z Pythonem, a następnie użyć programu Excel, szczególnie jeśli jesteś osobą wizualną. Dzięki programowi Excel możesz naprawdę sprawdzać zagregowane dane przed wprowadzeniem ich do dalszych procesów lub wizualizacji. To musi mieć narzędzie.

Donatas Svilpa
źródło
4

Excel dopuszcza tylko bardzo małe dane i nie zawiera niczego, co byłoby wystarczająco przydatne i elastyczne do uczenia maszynowego, a nawet po prostu drukowania. Wszystko, co bym zrobił w Excelu, to wpatrywanie się w podzbiór danych, aby po raz pierwszy rzucić okiem na wartości, aby upewnić się, że nie umknie mi nic widocznego dla oka.

Tak więc, jeśli jego ulubionym narzędziem jest Excel, może to sugerować, że rzadko zajmuje się uczeniem maszynowym, statystykami, większymi rozmiarami danych lub zaawansowanym drukowaniem. Ktoś taki jak ten nie nazwałbym Data Scientist. Oczywiście tytuły nie mają znaczenia i wiele zależy od twoich wymagań.

W każdym razie nie podejmuj osądów na podstawie oświadczeń lub życiorysu. Widziałem CV i znałem ludzi za tym stojących.

Nie zakładaj. Przetestuj go! Powinieneś być wystarczająco dobry, aby przygotować test. Wykazano, że same wywiady są prawie bezużyteczne w celu ustalenia umiejętności (pokazują jedynie osobowość). Przygotuj bardzo prosty nadzorowany test uczenia się i pozwól mu korzystać z dowolnego narzędzia, jakiego chce.

A jeśli chcesz najpierw przesłuchać ludzi podczas wywiadu, zapytaj go o bardzo podstawowe, ale ważne informacje na temat statystyki lub uczenia maszynowego. Coś, co wie każdy z twoich obecnych pracowników.

Gerenuk
źródło
2

Pozwól mi najpierw wyjaśnić, że rozpoczynam swoją podróż do nauki o danych z punktu widzenia programisty i programisty baz danych. Nie jestem 10-letnim ekspertem od danych i boga statystycznego. Pracuję jednak jako analityk danych i duże zbiory danych dla firmy, która współpracuje z dość dużymi klientami na całym świecie.

Z mojego doświadczenia wynika, że ​​analityk danych korzysta z narzędzi potrzebnych do wykonania pracy. Excel, R, SAS, Python i inne są narzędziami w zestawie narzędzi dla dobrego naukowca. Najlepsi mogą korzystać z szerokiej gamy narzędzi do analizy i analizy danych.

Dlatego jeśli porównujesz R z Pythonem, prawdopodobnie robisz to wszystko źle w świecie nauki o danych. Dobry specjalista od danych korzysta zarówno wtedy, gdy sensowne jest użycie jednego nad drugim. Dotyczy to również programu Excel.

Myślę, że raczej trudno jest znaleźć kogoś, kto będzie miał doświadczenie w tak wielu różnych narzędziach i językach, będąc świetnym we wszystkim. Myślę też, że ciężko będzie znaleźć specjalistę od danych, który nie tylko może programować złożone algorytmy, ale także wiedzieć, jak ich używać z statystycznego punktu widzenia.

Większość naukowców, z którymi pracowałem, ma około 2 smaków. Tych, którzy mogą programować i tych, którzy nie mogą. Rzadko współpracuję z naukowcami danych, którzy potrafią pobierać dane w Pythonie, manipulować nimi za pomocą czegoś takiego jak Panda, dopasowywać model do danych w R, a następnie prezentować je zarządowi pod koniec tygodnia.

To znaczy wiem, że istnieją. Czytałem wiele blogów z zakresu analizy danych od facetów tworzących skrobaki internetowe, wpychając go do Hadoop, wyciągając go z powrotem w Pythonie, programując skomplikowane rzeczy i uruchamiając go przez R. Oni istnieją. Są tam. Po prostu nie spotkałem zbyt wielu, którzy mogą to wszystko zrobić. Może to tylko moja dziedzina?

Czy to oznacza tylko specjalizację w złej rzeczy? Nie. Wielu moich przyjaciół specjalizuje się tylko w jednym głównym języku i zabija go. Znam wielu facetów od danych, którzy znają tylko R i zabijają go. Znam też wiele osób, które po prostu używają Excela do analizowania danych, ponieważ jest to jedyna rzecz, którą większość naukowców niebędących danymi może otworzyć i używać (szczególnie w firmach B2B). Pytanie, na które naprawdę musisz odpowiedzieć, brzmi: czy ta jedna rzecz jest JEDNĄ rzeczą, której potrzebujesz na tym stanowisku? A co najważniejsze, czy mogą nauczyć się nowych rzeczy?

PS

Data Science nie ogranicza się tylko do „BIG DATA” lub NoSQL.

Glen Swan
źródło
Cześć Glen, dziękuję za komentarze. Spójrz na poniższy link. Pochodzi od Swamiego Chandrasekarana, który kierował zespołem Watson w IBM, więc moim zdaniem dość doświadczony naukowiec. Zajmuje się programowaniem jako zasadniczo trzecią rzeczą, którą naukowiec powinien wiedzieć, za „Podstawami” i statystykami. Według jego mapy drogowej, gdy wiesz, jak programować, jesteś 15% drogi do bycia naukowcem danych. Na tej podstawie mogę nieco nie zgodzić się ze stwierdzeniem, że prawdziwi badacze danych mają smak „nieprogramowy”. nirvacana.com/thoughts/becoming-a-data-scientist
JHowIX
Cóż, mówię to tylko na podstawie doświadczenia. Większość kursów statystyki i analizy danych nawet nie obejmuje programowania poza tym, czego potrzebujesz do popularnych programów statystycznych. Z tego powodu większość facetów, których spotykam w świecie statystyk, nie jest dobra w programowaniu. To jak refleksja, kiedy wchodzą do prawdziwego świata i zdają sobie sprawę, że to pomaga.
Glen Swan,
1

Excel może być doskonałym narzędziem do analizy danych eksploracyjnych, naprawdę zależy od twoich potrzeb i oczywiście ma swoje ograniczenia jak każde narzędzie, ale excel zdecydowanie zasługuje na miejsce w galerii sław z dziedziny nauki danych.

Warto pamiętać, że w praktyce większość użytkowników i tak eksploruje mocno zredukowany zestaw danych (utworzony z zapytania SQL).

Excel jest potężny do eksploracji danych, gdy używasz obiektu „table” w połączeniu z tabelami przestawnymi, wizualizacja to maksimum 1-2 kliknięcia, a wiele wykresów Excela w programie PowerPoint wygląda świetnie, chyba że chcesz stworzyć coś bardzo niestandardowego, np. kontekst naukowy. Interaktywna natura oznacza, że ​​możesz szybko odkrywać.

Zalety obiektu „table” polegają na tym, że w miarę dalszego przekształcania danych w programie Excel w celu eksploracji nowych dystrybucji tabele przestawne zapamiętują zmienną.

W przypadku słabego programu Excel lista formuł jest prawdopodobnie ograniczona, na przykład instrukcja przypadku SQL lub instrukcja python jest znacznie bardziej elastyczna niż niekończący się łańcuch funkcji if.

To naprawdę zależy od twoich potrzeb, ale excel zdecydowanie zasługuje na miejsce w galerii sław data science.

Ciekawa anegdota: zespół, który pracuje nad algorytmem wiadomości na Facebooku, regularnie pokazuje, jak gra z Excelem i dużą ilością arkuszy kalkulacyjnych.

William Mahmood
źródło
0

Uczę kursu Business Analytics, który obejmuje SQL i Excel. Uczę w szkole biznesowej, więc moi uczniowie nie są najbardziej technicznie zdolni, dlatego nie użyłem czegoś takiego jak R, Panda czy Weka. Biorąc to pod uwagę, Excel jest wystarczająco potężnym narzędziem do analizy danych. Większość tej mocy czerpie z możliwości działania jako interfejs do SQL Server Analysis Services (składnik SQL Server do analizy danych) za pomocą dodatku Data Mining.

SSAS pozwala konstruować drzewa decyzyjne, przeprowadzać regresje liniowe i logistyczne, a nawet tworzyć sieci bayesowskie lub neuronowe. Przekonałem się, że korzystanie z Excela jako interfejsu jest mniej groźnym podejściem do wykonywania tego rodzaju analiz, ponieważ wszystkie one wcześniej używały Excela. Sposobem korzystania z SSAS bez Excela jest specjalna wersja Visual Studio, która nie jest najbardziej przyjaznym narzędziem dla użytkowników. Po połączeniu go z kilkoma innymi narzędziami Excel, takimi jak Power Query i Power Pivot, możesz przeprowadzić dość skomplikowaną analizę danych.

Pełne ujawnienie, prawdopodobnie nie będę go ponownie używać, kiedy nauczę nowej wersji kursu w przyszłym roku (dzielimy go na dwa kursy, aby można było bardziej skoncentrować się na analizie danych). Ale to tylko dlatego, że uniwersytet był w stanie uzyskać wystarczającą liczbę licencji na Alteryx, co jest jeszcze łatwiejsze w użyciu i bardziej wydajne, ale wynosi 4-85 tys. USD / użytkownika / rok, jeśli w jakiś sposób nie można go uzyskać za darmo. Powiedz, co chcesz o programie Excel, ale to przewyższa tę cenę.

James Endicott
źródło
0

Excel może być doskonałym narzędziem. Oczywiście, w zależności od tego, co robisz, może nie pasować do rachunku, ale jeśli tak, odrzucenie go byłoby głupotą. Chociaż skonfigurowanie potoku zajmuje trochę czasu, w Excelu możesz zacząć działać praktycznie: wbudowany interfejs użytkownika, łatwa rozbudowa za pomocą VBA nawet w Pythonie (np. Https://www.xlwings.org ). Może to nie być idealne, jeśli chodzi o takie rzeczy jak kontrola wersji, ale istnieją sposoby na to, aby działało z Gitem (np. Https://www.xltrail.com/blog/auto-export-vba-commit-hook ).

Bjoern Stiel
źródło
-2

Ta osoba pracuje z „Big Data” i używa głównie Excela? Poważnie?!?! Excel obsługuje tylko 1, 048, 576 wierszy danych w jednym arkuszu kalkulacyjnym. W przypadku zestawów danych poza tym potrzebuje wtyczki. Również tabele przestawne w programie Excel mają poważne ograniczenia dotyczące analizy, którą można wykonać przy ich użyciu.

Jakie rodzaje zadań analizy danych musiałyby być wykonane w pracy, do której rekrutujesz?

Sugeruję, abyś przeprowadził rozmowy kwalifikacyjne, które obejmują testy zadań, które będą musiały zostać wykonane na danym stanowisku. Bez naruszenia poufności, prywatności lub ochrony danych zestaw zadań związanych z programowaniem lub analizą danych w ramach wywiadu powinien obejmować (pseudonimizowany) podzbiór zbioru danych odpowiedniego dla stanowiska, z którym przeprowadzono wywiad. W przeciwnym razie możesz skończyć rekrutacją kogoś, kto jest elokwentny podczas rozmowy opartej na rozmowie, ale w rzeczywistości nie jest kompetentny do wykonywania rzeczywistej pracy.

dac2002
źródło
Nikt nie powiedział „big data”. Powiedzieli „naukowiec danych”. Nie wszystkie dane to „duże zbiory danych”. Współpracowałem z doświadczonymi naukowcami danych, którzy używali wszystkich języków R, Python, SQL i Excel w jednym projekcie. Nie wszystkie analizy danych są programowe lub skryptowe. Jak powiedziano w innym miejscu, niejasna specyfikacja pracy => różne typy badaczy danych.
smci