Nauka danych - strona 21

13

Jaka jest różnica między upsamplingiem a bilinearnym upsamplingiem w CNN?

Próbuję zrozumieć ten artykuł i nie jestem pewien, co to jest próbkowanie binarne. Czy ktoś może to wyjaśnić na wysokim

13

Dlaczego algorytmy genetyczne nie są wykorzystywane do optymalizacji sieci neuronowych?

Z mojego zrozumienia, Algorytmy genetyczne są potężnymi narzędziami do optymalizacji wielu celów. Ponadto szkolenie sieci neuronowych (szczególnie głębokich) jest trudne i wiąże się z wieloma problemami (funkcje kosztów niewypukłych - lokalne minima, zanikanie i eksplodowanie gradientów...

neural-network optimization genetic-algorithms

13

Czy zejście gradientu ma kluczowe znaczenie dla każdego optymalizatora?

Chcę wiedzieć, czy spadek gradientu jest głównym algorytmem stosowanym w optymalizatorach takich jak Adam, Adagrad, RMSProp i kilku innych optymalizatorach.

machine-learning neural-network deep-learning optimization gradient-descent

12

W jaki sposób zapytanie do ogromnej bazy danych zwraca znikome opóźnienie?

Na przykład podczas wyszukiwania czegoś w Google wyniki niemal natychmiast wracają. Rozumiem, że Google sortuje i indeksuje strony za pomocą algorytmów itp., Ale wyobrażam sobie, że niemożliwe jest indeksowanie wyników każdego możliwego zapytania (a wyniki są spersonalizowane, co czyni to jeszcze...

bigdata google search

12

Narzędzia opensource do pomocy w wydobywaniu strumienia wyników tablicy wyników

Rozważ strumień zawierający krotki (user, new_score) reprezentujące wyniki użytkowników w grze online. Strumień może mieć 100-1 000 nowych elementów na sekundę. Gra ma od 200 000 do 300 000 unikalnych graczy. Chciałbym mieć kilka stałych zapytań, takich jak: Którzy gracze opublikowali więcej...

tools data-stream-mining

12

Jak ożywić rozwój sieci społecznościowej?

Szukam biblioteki / narzędzia do wizualizacji zmian w sieci społecznościowej po dodaniu do niej nowych węzłów / krawędzi. Jednym z istniejących rozwiązań jest SoNIA: Social Network Image Animator . Pozwala ci robić filmy takie jak ten . Dokumentacja SoNIA mówi, że obecnie jest zepsuta, a poza tym...

social-network-analysis time-series javascript visualization

12

Wystąpienia a rdzenie podczas korzystania z EC2

Pracując nad czymś, co często można nazwać projektami „średnich danych”, byłem w stanie zrównoleglać mój kod (głównie do modelowania i prognozowania w Pythonie) na jednym systemie w dowolnym miejscu od 4 do 32 rdzeni. Teraz patrzę na skalowanie do klastrów w EC2 (prawdopodobnie z StarCluster /...

parallel clusters aws

12

Kompromisy między Stormem a Hadoopem (MapReduce)

Czy ktoś może mi powiedzieć o kompromisach związanych z wyborem między Storm a MapReduce w klastrze Hadoop do przetwarzania danych? Oczywiście oprócz oczywistego, że Hadoop (przetwarzanie przez MapReduce w klastrze Hadoop) jest systemem przetwarzania wsadowego, a Storm jest systemem przetwarzania w...

bigdata efficiency apache-hadoop distributed

12

Jakie są łatwe do nauczenia się aplikacje do uczenia maszynowego? [Zamknięte]

Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 5 lat temu . Będąc ogólnie nowym...

machine-learning

12

Czy Amazon RedShift zastępuje Hadoop dla danych ~ 1XTB?

Hadoop i jego ekosystem są bardzo popularne. Jednak w praktyce, gdy wiele zestawów danych znajduje się w zakresie terabajtów, nie jest rozsądniej używać Amazon RedShift do odpytywania dużych zestawów danych, zamiast spędzać czas i wysiłek na budowie klastra Hadoop? W jaki sposób Amazon Redshift...

apache-hadoop map-reduce aws

12

Jaka jest różnica między globalnymi a uniwersalnymi metodami kompresji?

Rozumiem, że metody kompresji można podzielić na dwa główne zestawy: światowy lokalny Pierwszy zestaw działa niezależnie od przetwarzanych danych, tzn. Nie opierają się na żadnej charakterystyce danych, a zatem nie muszą wykonywać żadnego przetwarzania wstępnego w żadnej części zestawu danych...

classification algorithms encoding

12

Algorytm dopasowywania preferencji

Pracuję nad tym projektem pobocznym, w którym muszę opracować rozwiązanie następującego problemu. Mam dwie grupy osób (klientów). Grupa Azamierza kupić, a grupa Bzamierza sprzedać określony produkt X. Produkt ma szereg atrybutów x_i, a moim celem jest ułatwienie transakcji Ai Bdopasowanie ich...

bigdata text-mining recommender-system

12

Pomiar wydajności różnych klasyfikatorów o różnych wielkościach próbek

Obecnie używam kilku różnych klasyfikatorów na różnych jednostkach wyodrębnionych z tekstu i używam precyzji / przywołania jako podsumowania tego, jak dobrze każdy oddzielny klasyfikator działa w danym zestawie danych. Zastanawiam się, czy istnieje sensowny sposób porównywania wydajności tych...

classification performance

12

Czy FPGrowth jest nadal uważany za „najnowocześniejszy” w częstym wydobywaniu wzorów?

O ile wiem rozwój algorytmów do rozwiązania problemu Frequent Pattern Mining (FPM), droga ulepszeń ma kilka głównych punktów kontrolnych. Po pierwsze, algorytm Apriori został zaproponowany w 1993 r. Przez Agrawal i in. wraz z sformalizowaniem problemu. Algorytm był w stanie usunąć niektóre zestawy...

bigdata data-mining efficiency state-of-the-art

12

Wydajny model bazy danych do przechowywania danych indeksowanych według n-gramów

Pracuję nad aplikacją, która wymaga utworzenia bardzo dużej bazy danych n-gramów, która istnieje w dużym korpusie tekstowym. Potrzebuję trzech wydajnych typów operacji: wyszukiwanie i wstawianie indeksowane przez sam n-gram oraz sprawdzanie wszystkich n-gramów zawierających sub-n-gram. Wydaje mi...

nlp databases

12

Przewidywanie następnego stanu medycznego na podstawie przeszłych stanów w danych roszczeń

Obecnie pracuję z dużym zestawem danych dotyczących roszczeń z tytułu ubezpieczenia zdrowotnego, które obejmują niektóre roszczenia z laboratorium i apteki. Najbardziej spójne informacje w zestawie danych obejmują jednak diagnozę (ICD-9CM) i kody procedur (CPT, HCSPCS, ICD-9CM). Moimi celami...

machine-learning r

12

Dane sentymentalne dla Emoji

Do eksperymentów chcielibyśmy użyć Emoji osadzonego w wielu tweetach jako podstawowych danych o prawdzie / treningu do prostej ilościowej analizy wrażliwości. Tweety są zwykle zbyt nieustrukturyzowane, aby NLP działało dobrze. W każdym razie w Unicode 6.0 jest 722 Emoji, a prawdopodobnie kolejne...

machine-learning classification parsing

12

Klasyfikacja tekstu nieustrukturyzowanego

Zamierzam sklasyfikować nieustrukturyzowane dokumenty tekstowe, a mianowicie strony internetowe o nieznanej strukturze. Liczba klas, do których klasyfikuję, jest ograniczona (w tym momencie uważam, że nie ma więcej niż trzy). Czy ktoś ma sugestie dotyczące tego, jak mogę zacząć? Czy możliwe jest...

machine-learning classification text-mining beginner

12

Hashing Trick - co się właściwie dzieje

Kiedy algorytmy ML, np. Vowpal Wabbit lub niektóre maszyny do faktoryzacji wygrywające w konkursach współczynnika klikalności ( Kaggle ), wspominają, że funkcje są „mieszane”, co to właściwie oznacza dla modelu? Powiedzmy, że istnieje zmienna reprezentująca identyfikator dodania internetowego,...

machine-learning predictive-modeling kaggle

12

Modelowanie nierównomiernie rozłożonych szeregów czasowych

Mam zmienną ciągłą, próbkowaną przez okres roku w nieregularnych odstępach czasu. Niektóre dni mają więcej niż jedną obserwację na godzinę, podczas gdy inne okresy nie mają nic przez kilka dni. To sprawia, że szczególnie trudno jest wykryć wzorce w szeregach czasowych, ponieważ niektóre miesiące...

neural-network time-series regression