W moich próbach walki z chaosem w arkuszach kalkulacyjnych często ewangelicznie staram się uzyskać bardziej niezawodne narzędzia, takie jak prawdziwe oprogramowanie statystyczne (R, Stata i tym podobne). Ostatnio zostałem zakwestionowany przez ten pogląd przez kogoś, kto stanowczo stwierdził, że po prostu nie nauczy się programować. Chciałbym zapewnić im narzędzia do analizy danych, które nie wymagają programowania (ale najlepiej, gdyby rozszerzyły się na programowanie, jeśli zdecydują się zanurzyć palec w wodzie później). Jakie są dostępne pakiety do eksploracji danych, które mogę polecić z prostą twarzą?
data-visualization
software
Ari B. Friedman
źródło
źródło
Odpowiedzi:
Programuję w Pythonie dla 95% mojej pracy, a resztę w języku R lub MATLAB lub IDL / PV-WAVE (i wkrótce SAS). Ale jestem w środowisku, w którym czas na wyniki jest często ogromnym czynnikiem napędzającym wybraną analizę, dlatego często używam również narzędzi typu „wskaż i kliknij”. Z mojego doświadczenia wynika, że nie ma jednego, solidnego, elastycznego narzędzia graficznego do przeprowadzania analiz, podobnie jak nie ma jednego języka. Zazwyczaj łączę w sobie kolekcję następującego bezpłatnego i komercyjnego oprogramowania
Nie korzystałem z JMP, Stata, Statistica itp., Ale chciałbym.
Korzystanie z tych narzędzi wymaga uczenia się różnych GUI i wielu abstrakcji modelowania, co w tej chwili jest uciążliwe, ale pozwól mi później uzyskać szybsze wyniki ad hoc. Jestem w tej samej łodzi, co OP, ponieważ chociaż większość ludzi, z którymi pracuję, jest naprawdę inteligentna, nie dbają o naukę języka, ani o wiele GUI i terminologię specyficzną dla aplikacji. Dlatego pogodziłem się z tym, że Excel kieruje 90% analiz w świecie biznesu. W związku z tym zamierzam używać takich rzeczy, jak pyinex, aby umożliwić mi lepszą analizę tej samej warstwy prezentacji Excela, jakiej oczekuje większość moich kolegów.
AKTUALIZACJA: Kontynuując motyw Do-modeling-with-programing-but-make-Excel-the-prezentacja-warstwa, właśnie natknąłem się na stronę tego faceta oferującą grafikę w stylu Tufte do osadzenia w komórkach Excela. Po prostu niesamowite i darmowe!
źródło
Jeśli chodzi o eksploracyjną (ewentualnie interaktywną) analizę danych, proponuję spojrzeć na:
Wszystkie trzy akceptują dane w formacie
arff
lub wcsv
formacie.Moim zdaniem Stata nie wymaga tak dużej wiedzy programistycznej. Jest to nawet część jego atrakcyjności: większość podstawowych analiz można wykonać za pomocą działań użytkownika typu wskaż i kliknij, z oknami dialogowymi do dostosowywania określonych parametrów, powiedzmy, do przewidywania w modelu liniowym. To samo dotyczy, choć w mniejszym stopniu, R, gdy używasz zewnętrznych GUI, takich jak Rcmdr , Deducer itp., Jak powiedział @ gsk3.
źródło
Niektórzy myślą, że programowanie to po prostu wprowadzenie instrukcji wiersza poleceń. W tym momencie być może jesteś trochę zagubiony w zachęcaniu ich. Jeśli jednak używają już arkuszy kalkulacyjnych, muszą już wprowadzić formuły. Są one podobne do instrukcji wiersza poleceń. Jeśli naprawdę oznaczają, że nie chcą robić żadnego programowania w sensie logicznej i zautomatyzowanej analizy, możesz im powiedzieć, że nadal mogą przeprowadzać analizy w języku R lub Stata bez żadnego programowania.
Jeśli potrafią wykonać statystyki w arkuszu kalkulacyjnym ... wszystko, co chcą zrobić ... to wszystkie analizy statystyczne, które chcą przeprowadzić, można wykonać bez „programowania” w języku R lub Stata. Mogą uporządkować i uporządkować dane w arkuszu kalkulacyjnym, a następnie wyeksportować je jako tekst. Następnie analiza jest przeprowadzana bez żadnego programowania.
Tak czasami robię wprowadzenie do R. Żadne programowanie nie jest wymagane do wykonania analizy danych, którą można wykonać w arkuszu kalkulacyjnym.
Jeśli złapiesz ich w ten sposób, po prostu zwinąć rybę powoli ... :) Za kilka lat komplementuj ich, jakim dobrym programistą się stali.
Możesz także pokazać ten dokument współpracownikom lub przynajmniej przeczytać go samodzielnie, aby lepiej przedstawić swoje uwagi.
źródło
Zamieszczę tutaj boisko do JMP. Mam kilka powodów, dla których to moje preferowane narzędzie do eksploracji danych innych niż programowanie:
źródło
Mogę polecić Tableau jako dobre narzędzie do eksploracji i wizualizacji danych, po prostu ze względu na różne sposoby eksploracji i przeglądania danych, po prostu przeciągając i upuszczając. Wykresy są dość ostre i można je łatwo wydrukować do formatu PDF w celu prezentacji. Jeśli chcesz, możesz go rozszerzyć o „programowanie”. Regularnie używam tego narzędzia wraz z „R” i SAS i wszystkie one działają dobrze razem.
źródło
Jak powiedział John, eksploracja danych nie wymaga dużo programowania w R. Oto lista poleceń eksploracji danych, które możesz wydawać ludziom. (Właśnie to wymyśliłem; na pewno możesz to rozwinąć.)
Eksportuj dane z dowolnego pakietu, w którym się znajduje. (Eksportowanie danych numerycznych bez cudzysłowów jest wygodne.) Następnie odczytaj dane w R.
Zrób stół.
Niech R zgadnie, jaki rodzaj grafiki ci dać. Czasami działa bardzo ładnie.
Kilka konkretnych funkcji drukowania działa po prostu na pojedynczych zmiennych.
Biorąc podzbiory
Składnia podobna do SQL na wypadek, gdyby ludzie byli do tego przyzwyczajeni (więcej tutaj )
PCA (miałbyś oczywiście więcej niż dwie zmienne.)
źródło
To bardziej lament niż odpowiedź ...
Najlepsze oprogramowanie, jakie widziałem w tym celu, to Arc , który jest zbudowany na Xlisp-Stat. To fantastyczne oprogramowanie do eksploracji danych z dużą ilością wbudowanej grafiki interaktywnej, a także wieloma możliwościami wnioskowania statystycznego. Moim zdaniem nic więcej nie zbliżyło się do łatwości użycia do eksploracji danych i możliwości dalszego rozszerzenia go o programowanie Lisp. Moim zdaniem, interaktywność w R dopiero zaczyna być wykorzystywana w sposób podobny do Arc, dziesięć lat później. I o ile mi wiadomo, nikt jeszcze nie wykorzystał tych możliwości do zbudowania interaktywnego interfejsu, który jest tak przydatny jak Arc.
Niestety tak naprawdę nigdy się nie przyłapał, dlatego programiści prawie wszyscy przeszli na pracę w języku R; ostatnio zaktualizowano w lipcu 2004 r. Wersje na komputery PC i Linux / Unix nadal działają i mogą być warte wypróbowania, w zależności od potrzeb; w przypadku komputerów Mac najlepszą opcją jest wypróbowanie wersji Linux / Unix pod X11, mam to działa na kilku systemach w ten sposób. Wspomniana na stronie wersja dla komputerów Mac działa tylko na komputerach Mac „Classic”.
Wspomnę też krótko o Mondrianie , którego próbowałem tylko krótko, ale wydaje się, że ma doskonałą graficzną interaktywność do eksploracji danych, chociaż (jak pamiętam) nie jest to łatwy sposób na rozszerzenie umiejętności lub wnioskowanie statystyczne.
źródło
Nowym oprogramowaniem, które wygląda obiecująco do tego celu, jest Deducer , zbudowany na podstawie R. Niestety, ponieważ jest nowy, podejrzewam, że nie obejmuje on jeszcze wielu pytań, które ludzie mogą zadać, ale spełnia on oczekiwania - kryterium wody prowadzące ludzi do prawdziwej paczki, jeśli zdecydują później.
Używałem również JMP w przeszłości, który miał niezłą interaktywność. Martwię się, że niektóre interfejsy mogą być zbyt skomplikowane do tych celów. I jest niewolny, co utrudnia potencjalnym uchodźcom z arkusza kalkulacyjnego wypróbowanie kaprysu.
Jest też grzechotka, która wygląda nieco obiecująco.
źródło
Do badania tego, co zawierają dane i ich czyszczenia, były Google Refine, teraz Open Refine , jest całkiem dobrym GUI. Jest o wiele bardziej wydajny do przygotowania i czyszczenia niż coś takiego jak Excel. Następnie przejdź do czegoś takiego jak R-Commander do swoich analiz.
źródło
Każdy, kto odpowiada na R lub którykolwiek z „GUI”, nie przeczytał pytania.
Istnieje specjalnie zaprojektowany do tego program o nazwie JMP. Tak, jest drogi, choć ma bezpłatny okres próbny i jest niesamowicie tani dla studentów lub pracowników uczelni (np. 50 $ taniej).
Istnieje również RapidMiner, który jest GUI opartym na przepływie pracy do eksploracji danych i analizy statystycznej. To bezpłatne i otwarte oprogramowanie.
źródło
Cóż, to szczególne narzędzie jest popularne w mojej branży (choć z założenia nie jest specyficzne dla branży): http://www.umetrics.com/simca
Umożliwia wykonywanie wielowymiarowej analizy ukrytej zmiennej (PCA i PLS) i obejmuje wszystkie towarzyszące wykresy interpretacyjne / obliczenia i narzędzia zapytania, takie jak wykresy wkładu, wykresy o zmiennym znaczeniu, obliczenia Q2 itp.
Jest często stosowany w wysokowymiarowych (i często wysoce skorelowanych / kolinearnych) przemysłowych zestawach danych, w których metody typu OLS / MLR są nieodpowiednie (np. Informacje z zestawu czujników, informacje z dziennika itp.).
Działa w środowisku w pełni GUI, a użytkownik nie musi pisać ani jednego wiersza kodu. Niestety nie jest darmowy i nie można go rozszerzyć za pomocą programowania.
źródło
Moim zdaniem, jeśli sam nie kodujesz testu, jesteś podatny na błędy i niezrozumienie wyników.
Myślę, że powinieneś polecić im zatrudnienie statystyk, który ma umiejętności komputerowe.
Jeśli ma to zawsze robić to samo, to rzeczywiście możesz użyć małego narzędzia (blackbox), które zrobi to samo. Ale nie jestem pewien, czy nadal nazywa się to eksploracją danych.
źródło
Poleciłbym pakiet R Johna Foxa o nazwie Dowódca R:
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
Tworzy interfejs użytkownika podobny do SPSS (lub podobnego), który jest świetny dla początkujących i nie wymaga od użytkownika wprowadzania żadnego kodu. Wszystko to odbywa się za pomocą rozwijanych pól (możesz nawet zminimalizować konsolę R podczas pracy).
Dla mnie zaletą tego pakietu jest to, że możesz skorzystać ze wszystkich wielkich możliwości obliczeniowych R, mając jednocześnie interfejs użytkownika, który jest całkowicie operacyjny dla początkujących.
źródło
Innym przydatnym narzędziem, chociaż tylko dla systemu Windows, jest Spotfire - uważam, że jest on bardzo przydatny do szybkiego przeglądania różnych histogramów i wykresów rozrzutu dla pojedynczych i par zmiennych. Narzędzie badawcze, które pomaga klasyfikować pojedyncze zmienne oraz pary w oparciu o proste statystyki - Hierarchical Clustering Explorer od HCIL. Przydaje się znalezienie najciekawszych zmiennych / par zmiennych.
źródło