Nauka danych

13
Etyczne i ekonomiczne skalowanie skalowania danych

Niewiele rzeczy w życiu sprawia mi przyjemność, jak skrobanie uporządkowanych i nieustrukturyzowanych danych z Internetu i wykorzystywanie ich w moich modelach. Na przykład zestaw narzędzi Data Science Toolkit (lub RDSTKdla programistów R) pozwala mi wyciągać wiele dobrych danych opartych na...

13
Neo4j vs OrientDB vs Titan

Pracuję nad projektem z zakresu analizy danych związanym z eksploracją relacji społecznych i potrzebuję przechowywać dane w niektórych bazach danych z grafami. Początkowo jako bazę danych wybrałem Neo4j. Ale wydaje się, że Neo4j nie skaluje się dobrze. Alternatywą, którą odkryłem, są Titan i...

13
Jestem programistą, jak dostać się do dziedziny Data Science?

Po pierwsze ten termin brzmi tak niejasno. W każdym razie .. Jestem programistą. Jednym z języków, które mogę kodować, jest Python. Mówiąc o danych, mogę korzystać z SQL i mogę zgrywać dane. To, co do tej pory odkryłem po przeczytaniu tak wielu artykułów, że Data Science jest dobry w: 1-...

13
Ile wymiarów należy zmniejszyć, wykonując PCA?

Jak wybrać K na PCA? K to liczba wymiarów do rzutowania. Jedynym wymogiem jest, aby nie stracić zbyt dużo informacji. Rozumiem, że to zależy od danych, ale szukam prostego ogólnego przeglądu tego, jakie cechy należy wziąć pod uwagę przy wyborze

13
Zaimportuj zawartość pliku csv do ramek danych pyspark

Jak mogę zaimportować plik .csv do ramek danych pyspark? Próbowałem nawet odczytać plik csv w Pandas, a następnie przekonwertować go na ramkę danych Spark za pomocą createDataFrame, ale nadal pojawia się jakiś błąd. Czy ktoś może mnie przez to poprowadzić? Powiedz mi też, jak mogę zaimportować plik...