Nauka danych

17
Wizualizacja wykresu z milionem wierzchołków

Jakiego narzędzia najlepiej użyć do wizualizacji (narysowania wierzchołków i krawędzi) wykresu zawierającego 1000000 wierzchołków? Na wykresie jest około 50000 krawędzi. Potrafię obliczyć położenie poszczególnych wierzchołków i krawędzi. Zastanawiam się nad napisaniem programu do generowania pliku...

17
Jak należy stosować etykę w informatyce?

Ostatnio pojawiła się furia, gdy Facebook przeprowadzał eksperymenty na swoich użytkownikach, aby sprawdzić, czy mogą zmienić emocje użytkownika, a teraz są w porządku . Chociaż nie jestem zawodowym naukowcem danych, czytam o etyce nauki o danych z książki Cathy O'Neill „Doing Data Science” i...

17
Czego używasz do generowania pulpitu nawigacyjnego w języku R?

Muszę generować okresowe (dzienne, miesięczne) raporty pulpitu nawigacyjnego analityki internetowej. Będą one statyczne i nie będą wymagały interakcji, więc wyobraź sobie plik PDF jako docelowy wynik. Raporty będą mieszać tabele i wykresy (głównie wykresy przebiegu w czasie i wykresy punktowe...

17
Algorytmy klastrowania tekstu

Mam problem z grupowaniem ogromnej liczby zdań w grupy według ich znaczenia. Jest to podobne do problemu, gdy masz wiele zdań i chcesz je pogrupować według ich znaczenia. Jakie algorytmy są zalecane? Nie wiem z góry liczby klastrów (a ponieważ nadchodzi więcej danych, klastry również mogą się...

17
Jaka jest korzyść z dzielenia pliku tfrecord na odłamki?

Pracuję nad rozpoznawaniem mowy z Tensorflow i planuję trenować LSTM NN z zestawem danych masywnych fal. Ze względu na wzrost wydajności planuję używać tfrecords. Istnieje kilka przykładów w Internecie (Inception na przykład.), W których pliki tfrecords są podzielone na odłamki. Moje pytanie brzmi:...

16
Metoda punktacji OOB RandomForestClassifier

Czy przypadkowa implementacja lasu w scikit-learn wykorzystuje średnią dokładność jako metodę punktacji do oszacowania błędu uogólnienia przy próbkach z worka? Nie jest to wspomniane w dokumentacji, ale metoda score () podaje średnią dokładność. Mam bardzo niezrównoważony zestaw danych i używam...