Uważałbym się za naukowca danych czeladnika. Jak większość (tak myślę), robiłem pierwsze wykresy i pierwsze agregacje w liceum i na studiach, używając Excela. Przechodząc przez studia, studia i ~ 7 lat doświadczenia zawodowego, szybko wybrałem narzędzia, które uważam za bardziej zaawansowane, takie jak SQL, R, Python, Hadoop, LaTeX itp.
Przeprowadzamy rozmowy kwalifikacyjne na stanowisko specjalisty ds. Danych, a jeden kandydat reklamuje się jako „starszy specjalista ds. Danych” (obecnie bardzo mętny termin) z ponad 15-letnim doświadczeniem. Zapytany, jaki jest jego ulubiony zestaw narzędzi, odpowiedział, że to Excel.
Wziąłem to za dowód, że nie był tak doświadczony, jak twierdziłby jego życiorys, ale nie był pewien. W końcu to, że nie jest to moje ulubione narzędzie, nie oznacza, że nie należy ono do innych ludzi. Czy doświadczeni badacze danych używają programu Excel? Czy możesz założyć, że nie masz doświadczenia w korzystaniu z programu Excel?
\LaTeX{}
, nie zatrudniłbym ich. tylko żartuję ...Odpowiedzi:
Większość nietechnicznych osób często używa programu Excel jako zamiennika bazy danych. Myślę, że to źle, ale do zaakceptowania. Jednak ktoś, kto podobno ma doświadczenie w analizie danych, po prostu nie może używać programu Excel jako swojego głównego narzędzia (z wyjątkiem oczywistego zadania polegającego na pierwszym spojrzeniu na dane). Wynika to z faktu, że program Excel nigdy nie był przeznaczony do tego rodzaju analiz, w związku z czym niezwykle łatwo jest popełniać błędy w programie Excel (nie oznacza to, że nie jest niewiarygodnie łatwo popełniać inny rodzaj błędów przy użyciu innych narzędzi, ale Excel jeszcze bardziej pogarsza sytuację.)
Podsumowując to, czego Excel nie ma i jest koniecznością dla każdej analizy:
Więcej zasobów:
Europejski arkusz kalkulacyjny Grupa interesu ds. Ryzyka - opowieści grozy
Nie powinieneś używać arkusza kalkulacyjnego do ważnej pracy (mam na myśli)
Microsoft Excel może być najbardziej niebezpiecznym oprogramowaniem na świecie
Zniszcz swoje dane za pomocą Excela dzięki tej jednej dziwnej sztuczce!
Arkusze kalkulacyjne Excel są trudne do uzyskania
źródło
df.plot()
) i wyeksportować dane wyjściowe do csv (df.to_csv('output.csv')
). Pamiętaj, że analizy danych zwykle wymagają znacznie więcej niż filtrowania i kreślenia. Dlatego należy skupić się na poprawności, dlatego należy oddzielić prezentację od analizy. Wykonaj analizę w Pythonie (lub innym języku), udostępnij wyniki w csv, jeśli tego chcesz.Widziałem doświadczonych naukowców zajmujących się danymi, którzy używają Excela - albo ze względu na swoje preferencje, albo ze względu na specyfikę miejsca pracy i środowiska IT w swoim miejscu pracy (na przykład wiele instytucji finansowych używa Excela jako głównego narzędzia przynajmniej do modelowania). Myślę jednak, że najbardziej doświadczeni badacze danych dostrzegają potrzebę korzystania z narzędzi optymalnych do określonych zadań i stosują to podejście.
Nie, nie możesz. Jest to następstwem moich wyżej wymienionych myśli. Analiza danych nie oznacza automatycznie dużych zbiorów danych - program Excel jest w stanie wykonać wiele prac związanych z analizą danych. Powiedziawszy to, jeśli specjalista ds. Danych (nawet doświadczony) nie ma wiedzy (przynajmniej podstawowej) o nowoczesnych narzędziach do analizy danych, w tym o dużych zasobach danych, jest to nieco niepokojące. Wynika to z faktu, że eksperymenty są głęboko zakorzenione w naturze nauki o danych, ponieważ eksploracyjna analiza danych jest jej istotną, a nawet kluczową częścią. Dlatego osoba, która nie ma ochoty eksplorować innych narzędzi w swojej dziedzinie, może zająć niższą pozycję wśród kandydatów w ogólnej zdolności do zajmowania stanowiska w dziedzinie danych (oczywiście jest to dość niejasne, ponieważ niektórzy ludzie bardzo szybko się uczą nowy materiał plus
Podsumowując, uważam, że najlepszą odpowiedzią doświadczonego badacza danych na pytanie dotyczące preferowanego narzędzia jest: Moje preferowane narzędzie to narzędzie optymalne, czyli takie, które najlepiej pasuje do danego zadania.
źródło
Myślę, że większość ludzi odpowiada bez dobrej znajomości programu Excel. Excel (od 2010 r.) Ma w pamięci kolumnową bazę danych [wielostolikową], zwaną power pivot (która umożliwia wprowadzanie danych z csv / baz danych itp.), Umożliwiającą przechowywanie milionów wierszy (nie musi być ładowana do arkusza kalkulacyjnego) . Posiada również narzędzie ETL o nazwie power query, umożliwiające odczyt danych z różnych źródeł (w tym hadoop). I ma narzędzie do wizualizacji (podgląd mocy i mapa mocy). Wiele Data Science dokonuje agregacji i analizy najlepszych n, w których przoduje oś obrotu. Dodaj do tego interaktywny charakter tych narzędzi - każdy użytkownik może łatwo przeciągnąć i upuścić wymiar, w którym można rozbić wyniki i mam nadzieję, że zobaczysz korzyści. Więc tak, nie możesz uczyć się maszyn,
źródło
W swojej książce Data Smart John Foreman rozwiązuje typowe problemy związane z naukami o danych (grupowanie, naiwne bayes, metody łączenia, ...) za pomocą Excela. Rzeczywiście zawsze dobrze jest mieć trochę znajomości języka Python lub R, ale myślę, że Excel nadal może wykonać większość pracy!
źródło
Dziwi mnie, ilu ludzi przywiązuje się do fajności zawodu, a nie do faktycznej pracy do wykonania. Excel jest doskonałym narzędziem, z darmowymi Powerpivot, Powerquery, potrafi wiele. (nie są one dostępne w systemie OS X). A jeśli znasz VBA, możesz zrobić fajne rzeczy. A jeśli dodasz tę wiedzę na temat Pythona, możesz połączyć pierwsze kroki ekstrakcji danych i manipulacji z Pythonem, a następnie użyć programu Excel, szczególnie jeśli jesteś osobą wizualną. Dzięki programowi Excel możesz naprawdę sprawdzać zagregowane dane przed wprowadzeniem ich do dalszych procesów lub wizualizacji. To musi mieć narzędzie.
źródło
Excel dopuszcza tylko bardzo małe dane i nie zawiera niczego, co byłoby wystarczająco przydatne i elastyczne do uczenia maszynowego, a nawet po prostu drukowania. Wszystko, co bym zrobił w Excelu, to wpatrywanie się w podzbiór danych, aby po raz pierwszy rzucić okiem na wartości, aby upewnić się, że nie umknie mi nic widocznego dla oka.
Tak więc, jeśli jego ulubionym narzędziem jest Excel, może to sugerować, że rzadko zajmuje się uczeniem maszynowym, statystykami, większymi rozmiarami danych lub zaawansowanym drukowaniem. Ktoś taki jak ten nie nazwałbym Data Scientist. Oczywiście tytuły nie mają znaczenia i wiele zależy od twoich wymagań.
W każdym razie nie podejmuj osądów na podstawie oświadczeń lub życiorysu. Widziałem CV i znałem ludzi za tym stojących.
Nie zakładaj. Przetestuj go! Powinieneś być wystarczająco dobry, aby przygotować test. Wykazano, że same wywiady są prawie bezużyteczne w celu ustalenia umiejętności (pokazują jedynie osobowość). Przygotuj bardzo prosty nadzorowany test uczenia się i pozwól mu korzystać z dowolnego narzędzia, jakiego chce.
A jeśli chcesz najpierw przesłuchać ludzi podczas wywiadu, zapytaj go o bardzo podstawowe, ale ważne informacje na temat statystyki lub uczenia maszynowego. Coś, co wie każdy z twoich obecnych pracowników.
źródło
Pozwól mi najpierw wyjaśnić, że rozpoczynam swoją podróż do nauki o danych z punktu widzenia programisty i programisty baz danych. Nie jestem 10-letnim ekspertem od danych i boga statystycznego. Pracuję jednak jako analityk danych i duże zbiory danych dla firmy, która współpracuje z dość dużymi klientami na całym świecie.
Z mojego doświadczenia wynika, że analityk danych korzysta z narzędzi potrzebnych do wykonania pracy. Excel, R, SAS, Python i inne są narzędziami w zestawie narzędzi dla dobrego naukowca. Najlepsi mogą korzystać z szerokiej gamy narzędzi do analizy i analizy danych.
Dlatego jeśli porównujesz R z Pythonem, prawdopodobnie robisz to wszystko źle w świecie nauki o danych. Dobry specjalista od danych korzysta zarówno wtedy, gdy sensowne jest użycie jednego nad drugim. Dotyczy to również programu Excel.
Myślę, że raczej trudno jest znaleźć kogoś, kto będzie miał doświadczenie w tak wielu różnych narzędziach i językach, będąc świetnym we wszystkim. Myślę też, że ciężko będzie znaleźć specjalistę od danych, który nie tylko może programować złożone algorytmy, ale także wiedzieć, jak ich używać z statystycznego punktu widzenia.
Większość naukowców, z którymi pracowałem, ma około 2 smaków. Tych, którzy mogą programować i tych, którzy nie mogą. Rzadko współpracuję z naukowcami danych, którzy potrafią pobierać dane w Pythonie, manipulować nimi za pomocą czegoś takiego jak Panda, dopasowywać model do danych w R, a następnie prezentować je zarządowi pod koniec tygodnia.
To znaczy wiem, że istnieją. Czytałem wiele blogów z zakresu analizy danych od facetów tworzących skrobaki internetowe, wpychając go do Hadoop, wyciągając go z powrotem w Pythonie, programując skomplikowane rzeczy i uruchamiając go przez R. Oni istnieją. Są tam. Po prostu nie spotkałem zbyt wielu, którzy mogą to wszystko zrobić. Może to tylko moja dziedzina?
Czy to oznacza tylko specjalizację w złej rzeczy? Nie. Wielu moich przyjaciół specjalizuje się tylko w jednym głównym języku i zabija go. Znam wielu facetów od danych, którzy znają tylko R i zabijają go. Znam też wiele osób, które po prostu używają Excela do analizowania danych, ponieważ jest to jedyna rzecz, którą większość naukowców niebędących danymi może otworzyć i używać (szczególnie w firmach B2B). Pytanie, na które naprawdę musisz odpowiedzieć, brzmi: czy ta jedna rzecz jest JEDNĄ rzeczą, której potrzebujesz na tym stanowisku? A co najważniejsze, czy mogą nauczyć się nowych rzeczy?
PS
Data Science nie ogranicza się tylko do „BIG DATA” lub NoSQL.
źródło
Excel może być doskonałym narzędziem do analizy danych eksploracyjnych, naprawdę zależy od twoich potrzeb i oczywiście ma swoje ograniczenia jak każde narzędzie, ale excel zdecydowanie zasługuje na miejsce w galerii sław z dziedziny nauki danych.
Warto pamiętać, że w praktyce większość użytkowników i tak eksploruje mocno zredukowany zestaw danych (utworzony z zapytania SQL).
Excel jest potężny do eksploracji danych, gdy używasz obiektu „table” w połączeniu z tabelami przestawnymi, wizualizacja to maksimum 1-2 kliknięcia, a wiele wykresów Excela w programie PowerPoint wygląda świetnie, chyba że chcesz stworzyć coś bardzo niestandardowego, np. kontekst naukowy. Interaktywna natura oznacza, że możesz szybko odkrywać.
Zalety obiektu „table” polegają na tym, że w miarę dalszego przekształcania danych w programie Excel w celu eksploracji nowych dystrybucji tabele przestawne zapamiętują zmienną.
W przypadku słabego programu Excel lista formuł jest prawdopodobnie ograniczona, na przykład instrukcja przypadku SQL lub instrukcja python jest znacznie bardziej elastyczna niż niekończący się łańcuch funkcji if.
To naprawdę zależy od twoich potrzeb, ale excel zdecydowanie zasługuje na miejsce w galerii sław data science.
Ciekawa anegdota: zespół, który pracuje nad algorytmem wiadomości na Facebooku, regularnie pokazuje, jak gra z Excelem i dużą ilością arkuszy kalkulacyjnych.
źródło
Uczę kursu Business Analytics, który obejmuje SQL i Excel. Uczę w szkole biznesowej, więc moi uczniowie nie są najbardziej technicznie zdolni, dlatego nie użyłem czegoś takiego jak R, Panda czy Weka. Biorąc to pod uwagę, Excel jest wystarczająco potężnym narzędziem do analizy danych. Większość tej mocy czerpie z możliwości działania jako interfejs do SQL Server Analysis Services (składnik SQL Server do analizy danych) za pomocą dodatku Data Mining.
SSAS pozwala konstruować drzewa decyzyjne, przeprowadzać regresje liniowe i logistyczne, a nawet tworzyć sieci bayesowskie lub neuronowe. Przekonałem się, że korzystanie z Excela jako interfejsu jest mniej groźnym podejściem do wykonywania tego rodzaju analiz, ponieważ wszystkie one wcześniej używały Excela. Sposobem korzystania z SSAS bez Excela jest specjalna wersja Visual Studio, która nie jest najbardziej przyjaznym narzędziem dla użytkowników. Po połączeniu go z kilkoma innymi narzędziami Excel, takimi jak Power Query i Power Pivot, możesz przeprowadzić dość skomplikowaną analizę danych.
Pełne ujawnienie, prawdopodobnie nie będę go ponownie używać, kiedy nauczę nowej wersji kursu w przyszłym roku (dzielimy go na dwa kursy, aby można było bardziej skoncentrować się na analizie danych). Ale to tylko dlatego, że uniwersytet był w stanie uzyskać wystarczającą liczbę licencji na Alteryx, co jest jeszcze łatwiejsze w użyciu i bardziej wydajne, ale wynosi 4-85 tys. USD / użytkownika / rok, jeśli w jakiś sposób nie można go uzyskać za darmo. Powiedz, co chcesz o programie Excel, ale to przewyższa tę cenę.
źródło
Excel może być doskonałym narzędziem. Oczywiście, w zależności od tego, co robisz, może nie pasować do rachunku, ale jeśli tak, odrzucenie go byłoby głupotą. Chociaż skonfigurowanie potoku zajmuje trochę czasu, w Excelu możesz zacząć działać praktycznie: wbudowany interfejs użytkownika, łatwa rozbudowa za pomocą VBA nawet w Pythonie (np. Https://www.xlwings.org ). Może to nie być idealne, jeśli chodzi o takie rzeczy jak kontrola wersji, ale istnieją sposoby na to, aby działało z Gitem (np. Https://www.xltrail.com/blog/auto-export-vba-commit-hook ).
źródło
Ta osoba pracuje z „Big Data” i używa głównie Excela? Poważnie?!?! Excel obsługuje tylko 1, 048, 576 wierszy danych w jednym arkuszu kalkulacyjnym. W przypadku zestawów danych poza tym potrzebuje wtyczki. Również tabele przestawne w programie Excel mają poważne ograniczenia dotyczące analizy, którą można wykonać przy ich użyciu.
Jakie rodzaje zadań analizy danych musiałyby być wykonane w pracy, do której rekrutujesz?
Sugeruję, abyś przeprowadził rozmowy kwalifikacyjne, które obejmują testy zadań, które będą musiały zostać wykonane na danym stanowisku. Bez naruszenia poufności, prywatności lub ochrony danych zestaw zadań związanych z programowaniem lub analizą danych w ramach wywiadu powinien obejmować (pseudonimizowany) podzbiór zbioru danych odpowiedniego dla stanowiska, z którym przeprowadzono wywiad. W przeciwnym razie możesz skończyć rekrutacją kogoś, kto jest elokwentny podczas rozmowy opartej na rozmowie, ale w rzeczywistości nie jest kompetentny do wykonywania rzeczywistej pracy.
źródło