Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w...
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w...
Natknąłem się na następujący problem, który uznaję za raczej typowy. Mam kilka dużych danych, powiedzmy, kilka milionów wierszy. Przeprowadzam na nim kilka nietrywialnych analiz, np. Zapytanie SQL składające się z kilku pod-zapytań. Otrzymuję pewien wynik, stwierdzając na przykład, że właściwość X...
Mam zestaw danych w następującej strukturze wstawiony do pliku CSV: Banana Water Rice Rice Water Bread Banana Juice Każdy wiersz wskazuje kolekcję przedmiotów, które zostały zakupione razem. Na przykład, pierwszy wiersz oznacza, że przedmioty Banana, Wateri Ricezostały zakupione razem. Chcę...
Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet...
Próbuję nauczyć się skrobania stron internetowych przy użyciu Pythona jako część wysiłku uczenia się analizy danych. Próbuję zeskrobać stronę internetową imdb, której adres URL jest następujący:
Bardzo często w polecającym mamy dane użytkownika, które mają etykietę np. „Kliknięcie”. Aby poznać model, potrzebuję danych dotyczących kliknięć i braku kliknięć. Najprostszym podejściem do generowania jest pobranie par produktów użytkownika, których nie ma w danych kliknięć. Może to jednak...
Mam duży zestaw danych z 9-metrowymi obiektami JSON o wielkości ~ 300 bajtów każdy. Są to posty z agregatora linków: w zasadzie linki (adres URL, tytuł i identyfikator autora) oraz komentarze (tekst i identyfikator autora) + metadane. Mogą to być rekordy relacyjne w tabeli, z wyjątkiem tego, że...
Szukam wskazówek, jak stworzyć listę haseł. Czy ktoś wie / czy ktoś może zalecić dobrą metodę wyodrębnienia list słów-słów z samego zbioru danych w celu wstępnego przetwarzania i filtrowania? Dane: ogromna ilość tekstu ludzkiego o zmiennej długości (wyszukiwarki i całe zdania (do 200 znaków))...
W naszym ostatnim projekcie kursu z Data Science zaproponowaliśmy następujące- Daj opinie Amazon zestawu danych , planujemy wymyślić algorytm (to z grubsza na podstawie spersonalizowanej PageRank), który określa strategiczne położenie na umieszczanie reklam na Amazon. Na przykład w Amazon są...
Jestem nowy w tej społeczności i mam nadzieję, że moje pytanie będzie tutaj pasować. W ramach mojego studiów licencjackich z zakresu analizy danych postanowiłem wykonać projekt dotyczący rozpoznawania działalności człowieka za pomocą zestawów danych ze smartfona. Jeśli chodzi o mnie, ten temat...
Mam ogromny zestaw danych z relacyjnej bazy danych, dla którego muszę utworzyć model klasyfikacji. Zwykle w tej sytuacji używałbym programowania logiki indukcyjnej (ILP), ale ze względu na szczególne okoliczności nie mogę tego zrobić. Innym sposobem rozwiązania tego problemu jest próba agregacji...
Mam dużą liczbę próbek, które reprezentują strumienie bitów zakodowane w Manchesterze jako sygnały audio. Częstotliwość, z jaką są one kodowane, jest głównym składnikiem częstotliwości, gdy jest wysoka, a w tle występuje stała ilość białego szumu. Ręcznie zdekodowałem te strumienie, ale...