Pytania oznaczone «data»

Pytania dotyczą głównie zarządzania danymi, bez skupiania się na wstępnym przetwarzaniu lub modelowaniu.

86
Jak duże są duże zbiory danych?

Wiele osób używa terminu „ duże zbiory danych” w sposób raczej komercyjny , jako sposób wskazania, że ​​duże zbiory danych są zaangażowane w obliczenia, a zatem potencjalne rozwiązania muszą mieć dobrą wydajność. Oczywiście duże zbiory danych zawsze zawierają powiązane terminy, takie jak...

48
Czy język R jest odpowiedni dla Big Data

R ma wiele bibliotek, które są przeznaczone do analizy danych (np. JAGS, BŁĘDY, ARULES itp.) I jest wspomniany w popularnych podręcznikach, takich jak: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, „Uczenie maszynowe z R”. Widziałem wytyczną 5 TB, aby zestaw danych uważać za Big Data. Moje...

40
Data Science w C (lub C ++)

Jestem R programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS. Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę Ri mając podstawową znajomość innych języków skryptowych /...

33
Otwieranie pliku 20 GB do analizy za pomocą pand

Obecnie próbuję otworzyć plik z pandami i pytonem do celów uczenia maszynowego, idealnie byłoby dla mnie mieć je wszystkie w ramce danych. Teraz plik ma 18 GB, a moja pamięć RAM to 32 GB, ale wciąż pojawiają się błędy pamięci. Czy z twojego doświadczenia jest to możliwe? Jeśli nie, czy znasz...

29
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą...

29
Jak zrobić SVD i PCA z dużymi danymi?

Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę...

18
Czy pandy są teraz szybsze niż data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Testy danych data.table nie były aktualizowane od 2014 roku. Słyszałem, że gdzieś Pandasjest teraz szybciej niż data.table. Czy to prawda? Czy ktoś zrobił jakieś testy porównawcze? Nigdy wcześniej nie korzystałem z Pythona, ale...

17
powiększ mapę cieplną dna morskiego

Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez...