Nauka danych

40
Data Science w C (lub C ++)

Jestem R programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS. Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę Ri mając podstawową znajomość innych języków skryptowych /...

37
Czy badacze danych używają Excela?

Uważałbym się za naukowca danych czeladnika. Jak większość (tak myślę), robiłem pierwsze wykresy i pierwsze agregacje w liceum i na studiach, używając Excela. Przechodząc przez studia, studia i ~ 7 lat doświadczenia zawodowego, szybko wybrałem narzędzia, które uważam za bardziej zaawansowane, takie...

37
Jak interpretować wyjście o znaczeniu XGBoost?

Uruchomiłem model xgboost. Nie wiem dokładnie, jak interpretować wynik xgb.importance. Jakie jest znaczenie wzmocnienia, ochrony i częstotliwości i jak je interpretujemy? Co również oznaczają Split, RealCover i RealCover%? Mam tutaj dodatkowe parametry Czy są jakieś inne parametry, które mogą...

35
Co sądzisz o certyfikatach Data Science?

Widziałem teraz dwa programy certyfikacji danych naukowych - John Hopkins dostępny w Coursera i Cloudera . Jestem pewien, że są tam inni. Zestaw klas Johna Hopkinsa koncentruje się na R jako zestawie narzędzi, ale obejmuje szereg tematów: Programowanie R. czyszczenie i uzyskiwanie...

35
Wyjaśnienie utraty entropii

Załóżmy, że zbuduję NN do klasyfikacji. Ostatnia warstwa to gęsta warstwa z aktywacją softmax. Mam pięć różnych klas do sklasyfikowania. Załóżmy, że dla jednego przykładu szkolenia,true label są [1 0 0 0 0]przewidywania [0.1 0.5 0.1 0.1 0.2]. Jak obliczyć utratę entropii krzyżowej dla tego...

34
Zorganizowane procesy czyszczenia danych

Z mojego ograniczonego wglądu w naukę danych przy użyciu R zdałem sobie sprawę, że czyszczenie złych danych jest bardzo ważną częścią przygotowywania danych do analizy. Czy są jakieś najlepsze praktyki lub procesy czyszczenia danych przed ich przetwarzaniem? Jeśli tak, to czy istnieją jakieś...

33
Multi GPU w kamerach

W jaki sposób można zaprogramować w bibliotece keras (lub tensorflow) szkolenie partycjonowania na wielu GPU? Powiedzmy, że jesteś w instancji Amazon ec2, która ma 8 procesorów graficznych i chciałbyś wykorzystać je wszystkie, aby trenować szybciej, ale twój kod dotyczy tylko jednego procesora lub...

33
Otwieranie pliku 20 GB do analizy za pomocą pand

Obecnie próbuję otworzyć plik z pandami i pytonem do celów uczenia maszynowego, idealnie byłoby dla mnie mieć je wszystkie w ramce danych. Teraz plik ma 18 GB, a moja pamięć RAM to 32 GB, ale wciąż pojawiają się błędy pamięci. Czy z twojego doświadczenia jest to możliwe? Jeśli nie, czy znasz...