Wiele osób korzysta z głównego narzędzia, takiego jak Excel lub inny arkusz kalkulacyjny, SPSS, Stata lub R do swoich potrzeb statystycznych. Mogą zwrócić się do konkretnego pakietu dla bardzo specjalnych potrzeb, ale wiele rzeczy można zrobić za pomocą prostego arkusza kalkulacyjnego lub ogólnego pakietu statystyk lub środowiska programowania statystyk.
Zawsze lubiłem Python jako język programowania i dla prostych potrzeb łatwo napisać krótki program, który oblicza to, czego potrzebuję. Matplotlib pozwala mi go wykreślić.
Czy ktoś całkowicie zmienił, powiedzmy R, na Python? R (lub dowolny inny pakiet statystyk) ma wiele funkcji specyficznych dla statystyki i ma struktury danych, które pozwalają myśleć o statystykach, które chcesz wykonać, a mniej o wewnętrznej reprezentacji twoich danych. Python (lub inny dynamiczny język) ma tę zaletę, że pozwala mi programować w znanym języku wysokiego poziomu i pozwala mi programowo współdziałać z rzeczywistymi systemami, w których rezydują dane lub w których mogę dokonywać pomiarów. Ale nie znalazłem żadnego pakietu Pythona, który pozwalałby mi wyrażać rzeczy za pomocą „terminologii statystycznej” - od prostych statystyk opisowych po bardziej skomplikowane metody wielowymiarowe.
Co możesz polecić, gdybym chciał użyć Pythona jako „stołu roboczego statystyk” zamiast R, SPSS itp.?
Co chciałbym zyskać i stracić na podstawie twojego doświadczenia?
Odpowiedzi:
Trudno zignorować bogactwo pakietów statystycznych dostępnych w R / CRAN. To powiedziawszy, spędzam dużo czasu w krainie Python i nigdy nie zniechęcę nikogo do dobrej zabawy. :) Oto kilka bibliotek / linków, które mogą okazać się przydatne w pracy statystycznej.
NumPy / Scipy Prawdopodobnie już o nich wiesz. Ale pozwól mi wskazać książkę kucharską, w której możesz przeczytać o wielu dostępnych już narzędziach statystycznych oraz listę przykładów, która jest doskonałym odniesieniem do funkcji (w tym manipulacji danymi i innymi operacjami). Innym przydatnym odniesieniem jest dystrybucja Johna Cooka w Scipy .
pandy Jest to naprawdę fajna biblioteka do pracy z danymi statystycznymi - danymi tabelarycznymi, szeregami czasowymi, danymi panelowymi. Zawiera wiele wbudowanych funkcji do podsumowań danych, grupowania / agregacji, przestawiania. Posiada również bibliotekę statystyk / ekonometrii.
larry Tablica z etykietami, która działa dobrze z NumPy. Zapewnia funkcje statystyczne nieobecne w NumPy i dobre do manipulacji danymi.
python-statlib Dość niedawny wysiłek, który połączył wiele rozproszonych bibliotek statystyk. Przydatny w przypadku podstawowych i opisowych statystyk, jeśli nie używasz NumPy ani pand.
statsmodels Modelowanie statystyczne: między innymi modele liniowe, GLM.
scikits Pakiety obliczeń statystycznych i naukowych - w szczególności wygładzanie, optymalizacja i uczenie maszynowe.
PyMC Dla potrzeb Bayesian / MCMC / modelowania hierarchicznego. Wysoce rekomendowane.
Modele PyMix Mixture.
Biopython Przydatny do ładowania danych biologicznych do pytona i zapewnia podstawowe narzędzia do analizy statystycznej / uczenia maszynowego do analizy.
Jeśli prędkość staje się problemem, zastanów się nad Theano - używanym z powodzeniem przez osoby uczące się głęboko.
Istnieje wiele innych rzeczy, ale to jest najbardziej przydatne według wspomnianych przez ciebie słów.
źródło
Jako platforma numeryczna i substytut MATLAB, Python osiągnął dojrzałość co najmniej 2-3 lata temu i jest pod wieloma względami znacznie lepszy niż MATLAB. Próbowałem przełączyć się na Python z R. mniej więcej w tym czasie i nie udało mi się to. Jest po prostu zbyt wiele pakietów R, których używam na co dzień, i które nie mają odpowiednika w Pythonie. Brak ggplot2 jest wystarczający, aby zostać showstopperem, ale jest o wiele więcej. Oprócz tego R ma lepszą składnię do analizy danych. Rozważ następujący podstawowy przykład:
Python :
R :
Co uważasz za bardziej wyraziste? W R możesz myśleć w kategoriach zmiennych i możesz łatwo rozszerzyć model, powiedzmy,
W porównaniu do R, Python jest językiem niskiego poziomu do budowania modeli.
Gdybym miał mniej wymagań dotyczących zaawansowanych funkcji statystycznych i już kodowałem Pythona w większym projekcie, uważałbym go za dobrego kandydata. Rozważę to również wtedy, gdy potrzebne jest podejście bez kości, albo z powodu ograniczeń prędkości, albo dlatego, że pakiety R nie zapewniają przewagi.
Dla tych, którzy robią stosunkowo zaawansowanych statystyk teraz , odpowiedź brzmi: nie myślenia, i to nie . W rzeczywistości uważam, że Python ograniczy sposób myślenia o analizie danych. Zajmie to kilka lat i wiele lat pracy nad wyprodukowaniem zamienników modułów dla 100 niezbędnych pakietów R, a nawet wtedy Python poczuje się jak język, w którym wykorzystano możliwości analizy danych. Ponieważ R zdobył już największy względny odsetek statystycznych zastosowanych na kilku polach, nie widzę, aby stało się to wkrótce. Powiedziawszy to, jest to wolny kraj i znam ludzi, którzy robią statystyki w APL i C.
źródło
results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()
. Statsmodels wciąż pozostaje daleko w tyle za innymi pakietami statystycznymi, takimi jak R, jeśli chodzi o zasięg, ale jest coraz więcej rzeczy, które możesz zrobić w pythonie, zanim będziesz musiał pobrać inny język lub pakiet statystyczny. (GEE i Mixed będą dostępne w następnym wydaniu.)Po pierwsze, pozwól mi powiedzieć, że zgadzam się z odpowiedzią Johna D. Cooka: Python nie jest językiem specyficznym dla domeny, takim jak R, a zatem jest o wiele więcej, co możesz zrobić z nim dalej. Oczywiście R jako DSL oznacza, że najnowsze algorytmy opublikowane w JASA prawie na pewno będą w R. Jeśli wykonujesz głównie prace ad hoc i chcesz eksperymentować z najnowszą techniką regresji lasso, powiedzmy, że R jest trudny do pokonania. Jeśli wykonujesz więcej prac analitycznych związanych z produkcją, integrujesz się z istniejącym oprogramowaniem i środowiskami i martwisz się o szybkość, rozszerzalność i łatwość konserwacji, Python będzie Ci znacznie lepiej służył.
Po drugie, ars dał świetną odpowiedź z dobrymi linkami. Oto kilka innych pakietów, które uważam za niezbędne do pracy analitycznej w Pythonie:
Jeśli chcesz bardziej interaktywnego IDE / konsoli w stylu MATLAB, sprawdź Spyder lub wtyczkę PyDev dla Eclipse .
źródło
Nie sądzę, że istnieje jakikolwiek argument, że zakres pakietów statystycznych w Cran i BioConductor daleko przekracza wszystko w ofercie z innych języków, jednak, że nie jest jedyną rzeczą do rozważenia.
W moich badaniach używam R, kiedy mogę, ale czasami R jest po prostu zbyt wolny. Na przykład duży przebieg MCMC.
Ostatnio połączyłem Python i C, aby rozwiązać ten problem. Krótkie podsumowanie: dopasowanie dużego stochastycznego modelu populacji o ~ 60 parametrach i wywnioskowanie około 150 stanów utajonych za pomocą MCMC.
for
pętli python wywołaj funkcje C, które zaktualizowały parametry i obliczyły prawdopodobieństwo.Szybkie obliczenia wykazały, że program spędził 95% na funkcjach C. Nie musiałem jednak pisać bolesnego kodu C, aby czytać dane lub konstruować struktury danych C.
Wiem, że istnieje także rpy , w którym python może wywoływać funkcje R. Może to być przydatne, ale jeśli „po prostu” robisz statystyki, użyłbym R.
źródło
Przydatne mogą być następujące dyskusje StackOverflow
źródło
Nie widziałem scikit-learn wyraźnie wspomnianego w powyższych odpowiedziach. Jest to pakiet Pythona do uczenia maszynowego w języku Python. Jest dość młody, ale rośnie bardzo szybko (zrzeczenie się: Jestem programistą scikit-learn). Jego celem jest zapewnienie standardowych narzędzi algorytmicznych do uczenia maszynowego w ujednoliconym interfejsie, z naciskiem na szybkość i użyteczność. O ile mi wiadomo, w Matlabie nie można znaleźć niczego podobnego. Jego mocnymi stronami są:
Szczegółowa dokumentacja , z wieloma przykładami
Wysokiej jakości standardowe nadzorowane narzędzia uczenia się (regresja / klasyfikacja). Konkretnie:
bardzo wszechstronny SVM (oparty na libsvm, ale z integracją łatek zewnętrznych i dużo pracy nad wiązaniem Pythona)
penalizowane modele liniowe ( Lasso , rzadka regresja logistyczna ...) z wydajnymi implementacjami.
Możliwość dokonania wyboru modelu poprzez weryfikację krzyżową przy użyciu wielu procesorów
Uczenie się bez nadzoru w celu eksploracji danych lub redukcji pierwszego wymiaru, które można łatwo połączyć z uczeniem nadzorowanym.
Open source, licencja BSD. Jeśli nie jesteś w środowisku czysto akademickim (jestem w tym, co byłoby krajowym laboratorium w stanie), ma to duże znaczenie, ponieważ koszty Matlaba są wtedy bardzo wysokie i możesz myśleć o czerpaniu produktów z pracy.
Matlab jest świetnym narzędziem, ale w mojej własnej pracy scipy + scikit-learn zaczyna dawać mi przewagę nad Matlabem, ponieważ Python wykonuje lepszą pracę z pamięcią ze względu na mechanizm widoku (i mam duże dane) oraz ponieważ scikit-learn pozwala mi bardzo łatwo porównywać różne podejścia.
źródło
Jedną z korzyści przejścia na Python jest możliwość wykonywania większej ilości pracy w jednym języku. Python jest rozsądnym wyborem do łamania liczb, pisania stron internetowych, skryptów administracyjnych itp. Więc jeśli robisz statystyki w Pythonie, nie musiałbyś zmieniać języków, aby wykonywać inne zadania programistyczne.
Aktualizacja: 26 stycznia 2011 r. Microsoft Research ogłosił Sho , nowe środowisko do analizy danych oparte na języku Python. Nie miałem jeszcze okazji tego wypróbować, ale brzmi to jak interesująca możliwość, jeśli chcesz uruchomić Pythona i współdziałać z bibliotekami .NET.
źródło
Być może ta odpowiedź jest oszustwem, ale wydaje się dziwne, że nikt nie wspomniał o projekcie Rpy , który zapewnia interfejs między R i Pythonem. Otrzymujesz pythonowy interfejs API do większości funkcji R. Zachowując (powiedziałbym, ładniejszą) składnię, przetwarzanie danych, aw niektórych przypadkach szybkość Pythona. Jest mało prawdopodobne, że Python kiedykolwiek będzie miał tyle narzędzi najnowocześniejszych statystyk jak R, tylko dlatego, że R jest dsl, a społeczność statystyk jest bardziej zainwestowana w R niż jakikolwiek inny język.
Widzę to jako analogię do korzystania z ORM w celu wykorzystania zalet SQL, pozwalając jednocześnie Pythonowi na Python, a SQL na SQL.
Inne przydatne pakiety specjalnie dla struktur danych obejmują:
źródło
Jestem biostatystą w zasadniczo sklepie R (około 80 osób używa R jako podstawowego narzędzia). Mimo to spędzam około 3/4 czasu pracując w Pythonie. Przypisuję to przede wszystkim faktowi, że moja praca obejmuje metody bayesowskie i uczenie maszynowe do modelowania statystycznego. Python jest znacznie bliższy słabemu punktowi wydajności / produktywności niż R, przynajmniej w przypadku metod statystycznych, które są iteracyjne lub oparte na symulacji. Gdybym przeprowadzał ANOVAS, regresje i testy statystyczne, jestem pewien, że użyłbym przede wszystkim R. Większość tego, czego potrzebuję, nie jest jednak dostępna jako puszkowany pakiet R.
źródło
Chciałbym powiedzieć, że z punktu widzenia kogoś, kto w dużej mierze opiera się na modelach liniowych w mojej pracy statystycznej i uwielbia Python w innych aspektach mojej pracy, bardzo rozczarowałem się Pythonem jako platformą do robienia czegokolwiek poza dość podstawowymi statystykami.
Uważam, że R ma znacznie lepsze wsparcie ze strony społeczności statystycznej, znacznie lepszą implementację modeli liniowych, a szczerze mówiąc ze strony statystyk, nawet przy doskonałych dystrybucjach takich jak Enthought, Python czuje się trochę jak Dziki Zachód.
I chyba, że pracujesz sam, szanse na to, że będziesz mieć współpracowników, którzy używają Pythona do statystyk, są w tym momencie dość niewielkie.
źródło
Zresztą tak naprawdę nie ma potrzeby rezygnować z R dla Pythona. Jeśli używasz IPython z pełnym stosem, masz rozszerzenia R, Octave i Cython, dzięki czemu możesz łatwo i czysto używać tych języków w swoich notatnikach IPython. Masz również obsługę przekazywania wartości między nimi a przestrzenią nazw Python. Możesz wyprowadzać dane w postaci wykresów, używając matplotlib i odpowiednio renderowanych wyrażeń matematycznych. Istnieje mnóstwo innych funkcji i możesz to wszystko zrobić w przeglądarce.
IPython przeszedł długą drogę :)
źródło
To, czego szukasz, nazywa się Sage: http://www.sagemath.org/
Jest to doskonały interfejs online do dobrze zbudowanej kombinacji narzędzi Python do matematyki.
źródło
Rpy2 - graj R pozostając w Pythonie ...
Dalsze opracowanie na żądanie Gunga:
Dokumentację Rpy2 można znaleźć na stronie http://rpy.sourceforge.net/rpy2/doc-dev/html/introduction.html
Z dokumentacji wynika, że interfejs wysokiego poziomu w rpy2 został zaprojektowany, aby ułatwić korzystanie z R przez programistów Python. Obiekty R są ujawniane jako instancje klas zaimplementowanych w języku Python, a funkcje R jako metody powiązane z tymi obiektami w wielu przypadkach. Ta sekcja zawiera także wprowadzenie do grafiki z wykresami R: krata (krata), a także gramatykę grafiki zaimplementowanej w ggplot2 pozwala tworzyć złożone i informacyjne wykresy z niewielkim kodem, podczas gdy podstawowa grafika siatki pozwala na wszelkie możliwe dostosowania.
Dlaczego lubię to:
Mogę przetwarzać moje dane za pomocą elastyczności Pythona, zamieniać je w macierz za pomocą numpy lub pand i wykonywać obliczenia w R i odzyskiwać obiekty r do późniejszego przetwarzania. Korzystam z ekonometrii, a python po prostu nie będzie miał narzędzi do tworzenia statystyk w R., a R prawdopodobnie nigdy nie będzie tak elastyczny jak python. Wymaga to zrozumienia R. Na szczęście ma sympatyczną społeczność programistów.
Sam Rpy2 jest dobrze obsługiwany, a obsługujący go dżentelmen odwiedza fora SO. Instalacja systemu Windows może być niewielkim problemem - https://stackoverflow.com/questions/5068760/bizzarre-issue-trying-to-make-rpy2-2-1-9-work-with-r-2-12-1-using -python-2-6-un? rq = 1 może pomóc.
źródło
Używam Pythona do analizy statystycznej i prognozowania. Jak wspomniano powyżej, Numpy i Matplotlib są dobrymi końmi roboczymi. Używam również ReportLab do tworzenia plików PDF.
Obecnie patrzę zarówno na Resolver, jak i Pyspread, które są podobnymi do Excela aplikacjami do arkuszy kalkulacyjnych opartymi na Pythonie. Resolver jest produktem komercyjnym, ale Pyspread jest nadal oprogramowaniem typu open source. (Przepraszam, jestem ograniczony tylko do jednego linku)
źródło
świetny przegląd do tej pory. Używam Pythona (w szczególności scipy + matplotlib) jako zamiennika Matlaba od 3 lat pracy na uniwersytecie. Czasami wciąż wracam, ponieważ znam określone biblioteki, np. Pakiet falkowy Matlaba jest po prostu niesamowity.
Lubię http://enthought.com/ dystrybucji Pythona. Jest komercyjny, ale bezpłatny dla celów akademickich i, o ile mi wiadomo, całkowicie open source. Ponieważ pracuję z wieloma uczniami, przed użyciem enthought czasami kłopotliwe było zainstalowanie numpy, scipy, ipython itp. Enthought udostępnia instalator dla systemów Windows, Linux i Mac.
Dwa inne pakiety warte wspomnienia:
ipython (jest już wyposażony w enthought) świetna zaawansowana powłoka. dobre wprowadzenie jest na showmedo http://showmedo.com/videotutorials/series?name=PythonIPythonSeries
nltk - zestaw narzędzi w języku naturalnym http://www.nltk.org/ świetny pakiet na wypadek, gdybyś chciał przeprowadzić statystyki / uczenie maszynowe na dowolnym korpusie.
źródło
To interesujące pytanie z kilkoma świetnymi odpowiedziami.
Przydadzą ci się przydatne dyskusje w artykule, który napisałem z Roseline Bilina. Ostateczna wersja znajduje się tutaj: http://www.enac.fr/recherche/leea/Steve%20Lawford/papers/python_paper_revised.pdf (od tego czasu pojawił się w niemal tej formie jako „Python dla Unified Research w ekonometrii i statystyce” ”, w Econometric Reviews (2012), 31 (5), 558-591).
źródło
Być może nie są bezpośrednio powiązane, ale R ma ładne środowisko GUI do interaktywnych sesji (edycja: na Macu / Windows). IPython jest bardzo dobry, ale dla środowiska bliższego Matlabowi możesz wypróbować Spyder lub IEP. Lepiej spóźniłem się z użyciem IEP, ale Spyder wygląda bardziej obiecująco.
IEP: http://code.google.com/p/iep/
Spyder: http://packages.python.org/spyder/
Witryna IEP zawiera krótkie porównanie pokrewnego oprogramowania: http://code.google.com/p/iep/wiki/Alternatives
źródło
Znalazłem tutaj świetne wprowadzenie do pand, które sugeruję sprawdzić. Pandas jest niesamowitym zestawem narzędzi i zapewnia wysoki poziom możliwości analizy danych w R z rozbudowanymi bibliotekami i jakością produkcji Pythona.
Ten post na blogu stanowi świetne wprowadzenie do Pand z perspektywy kompletnego początkującego:
http://manishamde.github.com/blog/2013/03/07/pandas-and-python-top-10/
źródło
Powinienem dodać okrzyk dla Sho, numerycznego środowiska obliczeniowego zbudowanego na IronPython. Używam go teraz na zajęciach uczenia maszynowego w Stanford i było to bardzo pomocne. Ma wbudowane pakiety algebry liniowej i możliwości tworzenia wykresów. Będąc .Net można łatwo rozszerzyć za pomocą C # lub dowolnego innego języka .Net. O wiele łatwiej jest mi zacząć, będąc użytkownikiem systemu Windows, niż prosty Python i NumPy.
źródło
Nikt wcześniej nie wspominał o Orange :
Nie używam go na co dzień, ale jest to obowiązkowa pozycja dla każdego, kto woli GUI niż interfejs wiersza poleceń.
Nawet jeśli wolisz ten drugi, Orange dobrze jest znać, ponieważ możesz łatwo importować fragmenty Orange do skryptów Pythona, na wypadek, gdybyś potrzebował części jego funkcjonalności.
źródło
Zauważ, że SPSS Statistics ma zintegrowany interfejs Pythona (także R). Możesz więc pisać programy w języku Python, które korzystają z procedur statystycznych i generują albo zwykle ładnie sformatowane dane statystyczne, albo zwracają wyniki do programu w celu dalszego przetwarzania. Lub możesz uruchomić programy w języku Python w strumieniu poleceń Statistics. Nadal musisz znać język poleceń Statistics, ale możesz skorzystać z całego zarządzania danymi, wyników prezentacji itp., Które zapewnia Statistics, a także z procedur.
źródło
Ostatnie porównanie z DataCamp zapewnia wyraźny obraz R i Pythona.
Wykorzystanie tych dwóch języków w polu analizy danych. Python jest powszechnie używany, gdy zadania analizy danych muszą być zintegrowane z aplikacjami internetowymi lub gdy kod statystyk musi zostać włączony do produkcyjnej bazy danych. R jest stosowany głównie, gdy zadania analizy danych wymagają samodzielnego przetwarzania lub analizy na poszczególnych serwerach.
Uznałem, że jest on tak przydatny na tym blogu i mam nadzieję, że pomoże innym również zrozumieć najnowsze trendy w obu tych językach. Julia też się zbliża. Mam nadzieję że to pomoże !
źródło
Wierzę, że Python jest doskonałym warsztatem w mojej dziedzinie. Robię dużo skrobania, przenoszenia danych, dużych danych, analizy sieci, modelowania bayesowskiego i symulacji. Wszystkie te rzeczy zazwyczaj wymagają szybkości i elastyczności, więc w tych przypadkach Python działa lepiej niż R. Oto kilka rzeczy o Pythonie, które lubię (niektóre są wspomniane powyżej, inne nie są):
-Składnia czyszczenia; bardziej czytelny kod. Uważam, że Python jest bardziej nowoczesnym i spójnym językowo językiem.
-Python ma Notatnik, Ipython i inne niesamowite narzędzia do udostępniania kodu, współpracy, publikowania.
-iPython notebook pozwala na użycie R w kodzie Pythona, więc zawsze można wrócić do R.
-Niepodważalnie szybsze bez uciekania się do C. Użycie Cython, NUMBA i innych metod integracji C spowoduje, że twój kod osiągnie prędkości porównywalne z czystym C. Tego, o ile mi wiadomo, nie można osiągnąć w R.
-Pandy, Numpy i Scipy wydmuchują standardowy R z wody. Tak, jest kilka rzeczy, które R może zrobić w jednym wierszu, ale przyjmuje Pandas 3 lub 4. Ogólnie jednak Pandy mogą obsługiwać większe zestawy danych, są łatwiejsze w użyciu i zapewniają niesamowitą elastyczność w zakresie integracji z innymi Pythonami pakiety i metody.
-Python jest bardziej stabilny. Spróbuj załadować zestaw danych 2gig do RStudio.
-Jednym zgrabnym pakietem, który nie wydaje się wspomniany powyżej, jest PyMC3 - świetny ogólny pakiet dla większości twoich modeli bayesowskich.
-Niektóre, powyżej wspominają o ggplot2 i grub o jego nieobecności w Pythonie. Jeśli kiedykolwiek używałeś funkcji graficznych Matlaba i / lub używałeś matplotlib w Pythonie, będziesz wiedział, że te ostatnie opcje są na ogół znacznie bardziej wydajne niż ggplot2.
Być może jednak łatwiej jest nauczyć się języka R i często go używam w przypadkach, w których nie znam jeszcze procedur modelowania. W takim przypadku głębokość gotowych bibliotek statystycznych R. jest nie do pobicia. Idealnie, wiedziałbym oba wystarczająco dobrze, aby móc korzystać z nich w razie potrzeby.
źródło
Dla tych, którzy muszą pracować pod Windows, Anaconda ( https://store.continuum.io/cshop/anaconda/ ) naprawdę bardzo pomaga. Instalowanie pakietów pod Windows było uciążliwe. Po zainstalowaniu Anacondy możesz skonfigurować gotowe do użycia środowisko programistyczne z jedną linią.
Na przykład za pomocą
wszystkie te pakiety zostaną pobrane i zainstalowane automatycznie.
źródło
Python ma przed sobą długą drogę, zanim będzie można go porównać do R. Ma znacznie mniej pakietów niż R i niższej jakości. Ludzie, którzy trzymają się podstaw lub polegają tylko na własnych bibliotekach, prawdopodobnie mogliby wykonywać swoją pracę wyłącznie w języku Python, ale jeśli jesteś kimś, kto potrzebuje bardziej zaawansowanych rozwiązań ilościowych, śmiem twierdzić, że nic nie jest tak blisko R.
Należy również zauważyć, że do chwili obecnej Python nie ma odpowiedniego naukowego IDE w stylu Matlaba porównywalnego do R-Studio (proszę nie mówić Spyder) i musisz wszystko wypracować na konsoli. Ogólnie rzecz biorąc, całe doświadczenie w Pythonie wymaga sporej ilości „maniaków”, których brakuje większości ludzi i których nie obchodzi.
Nie zrozum mnie źle, uwielbiam Python, to właściwie mój ulubiony język, który w przeciwieństwie do R, jest prawdziwym językiem programowania. Jednak jeśli chodzi o czystą analizę danych, jestem zależny od R, który jest jak dotąd najbardziej specjalistycznym i opracowanym rozwiązaniem. Używam Pythona, gdy muszę połączyć analizę danych z inżynierią oprogramowania, np. Stworzyć narzędzie, które wykona automatyzację metodami, które najpierw zaprogramowałem w brudnym skrypcie R. W wielu przypadkach używam rpy2 do wywoływania R z Pythona, ponieważ w zdecydowanej większości przypadków pakiety R są znacznie lepsze (lub wcale nie istnieją w Pythonie). W ten sposób staram się uzyskać to, co najlepsze z obu światów.
Nadal używam Matlaba do czystego opracowywania algorytmów, ponieważ uwielbiam jego składnię i szybkość w stylu matematycznym.
źródło