Pytania oznaczone «bigdata»

Big data to termin określający zbiór danych tak dużych i złożonych, że przetwarzanie ich przy użyciu dostępnych narzędzi do zarządzania bazami danych lub tradycyjnych aplikacji do przetwarzania danych staje się trudne. Wyzwania obejmują przechwytywanie, przechowywanie, przechowywanie, wyszukiwanie, udostępnianie, przesyłanie, analizę i wizualizację.

86
Jak duże są duże zbiory danych?

Wiele osób używa terminu „ duże zbiory danych” w sposób raczej komercyjny , jako sposób wskazania, że ​​duże zbiory danych są zaangażowane w obliczenia, a zatem potencjalne rozwiązania muszą mieć dobrą wydajność. Oczywiście duże zbiory danych zawsze zawierają powiązane terminy, takie jak...

48
Czy język R jest odpowiedni dla Big Data

R ma wiele bibliotek, które są przeznaczone do analizy danych (np. JAGS, BŁĘDY, ARULES itp.) I jest wspomniany w popularnych podręcznikach, takich jak: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, „Uczenie maszynowe z R”. Widziałem wytyczną 5 TB, aby zestaw danych uważać za Big Data. Moje...

40
Data Science w C (lub C ++)

Jestem R programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS. Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę Ri mając podstawową znajomość innych języków skryptowych /...

33
Otwieranie pliku 20 GB do analizy za pomocą pand

Obecnie próbuję otworzyć plik z pandami i pytonem do celów uczenia maszynowego, idealnie byłoby dla mnie mieć je wszystkie w ramce danych. Teraz plik ma 18 GB, a moja pamięć RAM to 32 GB, ale wciąż pojawiają się błędy pamięci. Czy z twojego doświadczenia jest to możliwe? Jeśli nie, czy znasz...

29
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą...

29
Jak zrobić SVD i PCA z dużymi danymi?

Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę...

17
powiększ mapę cieplną dna morskiego

Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez...

14
Czy Python nadaje się do dużych zbiorów danych

Czytam w tym poście Czy język R jest odpowiedni dla dużych 5TBzbiorów danych, które stanowią duże zbiory danych , i chociaż dobrze się spisuje, dostarczając informacji o możliwościach pracy z tego typu danymi w Rnim, zapewnia bardzo mało informacji na jego temat Python. Zastanawiałem się, czy...

14
Kiedy wartości p są zwodnicze?

Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej

12
Algorytm dopasowywania preferencji

Pracuję nad tym projektem pobocznym, w którym muszę opracować rozwiązanie następującego problemu. Mam dwie grupy osób (klientów). Grupa Azamierza kupić, a grupa Bzamierza sprzedać określony produkt X. Produkt ma szereg atrybutów x_i, a moim celem jest ułatwienie transakcji Ai Bdopasowanie ich...