Pytania oznaczone «pyspark»

13
Zaimportuj zawartość pliku csv do ramek danych pyspark

Jak mogę zaimportować plik .csv do ramek danych pyspark? Próbowałem nawet odczytać plik csv w Pandas, a następnie przekonwertować go na ramkę danych Spark za pomocą createDataFrame, ale nadal pojawia się jakiś błąd. Czy ktoś może mnie przez to poprowadzić? Powiedz mi też, jak mogę zaimportować plik...

12
Ile komórek LSTM powinienem użyć?

Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t...

10
Spark, optymalnie dzieląc jeden RDD na dwa

Mam duży zestaw danych, który muszę podzielić na grupy zgodnie z określonymi parametrami. Chcę, aby zadanie przebiegło tak wydajnie, jak to możliwe. Mogę sobie wyobrazić dwa sposoby Opcja 1 - Utwórz mapę z oryginalnego RDD i filtra def customMapper(record): if passesSomeTest(record): return...