Nauka danych

18
Jak zwiększyć rozwój algorytmu?

Pracując nad eksploracyjną analizą danych i opracowując algorytmy, stwierdzam, że większość mojego czasu spędzam na cyklu wizualizacji, pisania kodu, uruchamiania na małym zbiorze danych, powtarzania. Dane, które posiadam, są zwykle typu wizji komputerowej / fuzji czujników, a algorytmy są ciężkie...

18
Grupowanie oparte na wynikach podobieństwa

Załóżmy, że mamy zbiór elementów E i podobieństwo ( nie odległość funkcja) sim (ei, ej) między dwoma elementami El, EJ ∈ E . Jak moglibyśmy (skutecznie) grupować elementy E za pomocą karty SIM ? k- oznacza, na przykład, wymaga określonego k , klastrowanie baldachimu wymaga dwóch wartości...

18
Czy wymiary t-sne są znaczące?

Czy są jakieś znaczenia dla wymiarów osadzania t-sne? Podobnie jak w przypadku PCA, mamy poczucie maksymalizacji wariancji transformacji liniowej, ale czy dla t-sne jest intuicja oprócz tylko przestrzeni, którą definiujemy do mapowania i minimalizacji odległości

18
NLP - dlaczego „nie” to słowo stop?

Próbuję usunąć słowa stop przed wykonaniem modelowania tematu. Zauważyłem, że niektóre słowa negacji (nie, ani nigdy, nigdy itd.) Są zwykle uważane za słowa stop. Na przykład NLTK, spacy i sklearn zawierają „not” na swoich listach słów kluczowych. Jeśli jednak usuniemy „nie” z poniższych zdań,...

18
Czy pandy są teraz szybsze niż data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Testy danych data.table nie były aktualizowane od 2014 roku. Słyszałem, że gdzieś Pandasjest teraz szybciej niż data.table. Czy to prawda? Czy ktoś zrobił jakieś testy porównawcze? Nigdy wcześniej nie korzystałem z Pythona, ale...