Pytania oznaczone «deep-learning»

119

Na czym polega problem „umierania ReLU” w sieciach neuronowych?

Odnosząc się do notatek z kursu Stanford na temat sieci neuronowych splotowych do rozpoznawania wzrokowego , akapit mówi: „Niestety jednostki ReLU mogą być kruche podczas treningu i mogą„ umrzeć ”. Na przykład duży gradient przepływający przez neuron ReLU może spowodować aktualizację wag w taki...

machine-learning neural-network deep-learning

95

Kiedy używać GRU przez LSTM?

Kluczowa różnica między GRU a LSTM polega na tym, że GRU ma dwie bramki (bramki resetowania i aktualizacji ), podczas gdy LSTM ma trzy bramki (mianowicie bramki wejścia , wyjścia i zapomnienia ). Dlaczego korzystamy z GRU, skoro mamy wyraźniejszą kontrolę nad siecią dzięki modelowi LSTM (ponieważ...

neural-network deep-learning

85

Wybór współczynnika uczenia się

Obecnie pracuję nad implementacją Stochastic Gradient Descent, SGDdla sieci neuronowych wykorzystujących propagację wsteczną i choć rozumiem jej cel, mam kilka pytań na temat wyboru wartości szybkości uczenia się. Czy szybkość uczenia się jest związana z kształtem gradientu błędu, ponieważ...

machine-learning neural-network deep-learning optimization hyperparameter

79

Jak wizualizujesz architektury sieci neuronowych?

Podczas pisania pracy / prezentacji na temat sieci neuronowych zwykle wizualizuje się architekturę sieci. Jakie są dobre / proste sposoby automatycznej wizualizacji popularnych

machine-learning neural-network deep-learning visualization

77

Jak narysować diagramy architektury uczenia głębokiego?

Zbudowałem swój model. Teraz chcę narysować schemat architektury sieci dla mojego artykułu badawczego. Przykład pokazano

machine-learning neural-network deep-learning svm software-recommendation

64

Prognozowanie szeregów czasowych przy użyciu ARIMA vs LSTM

Problemem, z którym mam do czynienia, jest przewidywanie wartości szeregów czasowych. Patrzę na jedną serię czasową naraz i na podstawie np. 15% danych wejściowych chciałbym przewidzieć jej przyszłe wartości. Do tej pory natknąłem się na dwa modele: LSTM (długoterminowa pamięć krótkotrwała; klasa...

time-series deep-learning rnn prediction

51

Kiedy stosować (He lub Glorot) normalną inicjalizację zamiast jednolitej inicjacji? A jakie są jego efekty dzięki Normalizacji partii?

Wiedziałem, że Residual Network (ResNet) sprawił, że zwykła inicjalizacja He stała się popularna. W ResNet używana jest normalna inicjalizacja He , podczas gdy pierwsza warstwa używa jednolitej inicjalizacji He. Przejrzałem papier ResNet i papier „Zagłębiając się w prostowniki” (papier...

neural-network deep-learning normalization

50

Jak walczyć z niedopasowaniem w głębokiej sieci neuronowej

Kiedy zaczynałem od sztucznych sieci neuronowych (NN), pomyślałem, że będę musiał walczyć z nadmiernym dopasowaniem jako głównym problemem. Ale w praktyce nie mogę nawet sprawić, aby mój NN przekroczył barierę 20% poziomu błędu. Nie mogę nawet pobić mojego wyniku w losowym lesie! Szukam bardzo...

neural-network deep-learning

43

Liczba parametrów w modelu LSTM

Ile parametrów ma pojedynczy zestaw LSTM? Liczba parametrów nakłada dolną granicę na liczbę wymaganych przykładów treningu, a także wpływa na czas szkolenia. Dlatego znajomość liczby parametrów jest przydatna w modelach szkoleniowych z wykorzystaniem

deep-learning rnn

43

Dodawanie funkcji do modelu szeregów czasowych LSTM

czytałem trochę o LSTM i ich zastosowaniu do szeregów czasowych i było to interesujące, ale jednocześnie trudne. Jedną rzeczą, z którą miałem trudności ze zrozumieniem, jest podejście do dodawania dodatkowych funkcji do już istniejącej listy funkcji szeregów czasowych. Zakładając, że masz zestaw...

machine-learning neural-network deep-learning time-series

40

Dlaczego rozmiar mini partii jest lepszy niż jedna „partia” ze wszystkimi danymi treningowymi?

Często czytam, że w przypadku modeli Deep Learning zwykłą praktyką jest stosowanie mini-partii (zazwyczaj małej, 32/64) w kilku epokach treningowych. Naprawdę nie mogę pojąć przyczyny tego. O ile się nie mylę, wielkość partii to liczba instancji treningowych widocznych przez model podczas iteracji...

machine-learning deep-learning

38

Czy batch_size w Keras ma jakikolwiek wpływ na jakość wyników?

Mam zamiar wytrenować dużą sieć LSTM z 2-3 milionami artykułów i walczę z błędami pamięci (używam AWS EC2 g2x2large). Dowiedziałem się, że jednym z rozwiązań jest zmniejszenie batch_size. Nie jestem jednak pewien, czy ten parametr dotyczy tylko problemów z wydajnością pamięci lub czy wpłynie to na...

deep-learning keras

38

Jaka jest różnica między „ekwiwariantem do tłumaczenia” a „niezmiennikiem do tłumaczenia”

Mam problem ze zrozumieniem różnicy między ekwiwariantem a tłumaczeniem i niezmiennikiem dla tłumaczenia . W książce Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville i Y. Bengio), można znaleźć w sieciach splotowych: [...] szczególna forma udostępniania parametrów powoduje, że...

neural-network deep-learning convolution

35

Wyjaśnienie utraty entropii

Załóżmy, że zbuduję NN do klasyfikacji. Ostatnia warstwa to gęsta warstwa z aktywacją softmax. Mam pięć różnych klas do sklasyfikowania. Załóżmy, że dla jednego przykładu szkolenia,true label są [1 0 0 0 0]przewidywania [0.1 0.5 0.1 0.1 0.2]. Jak obliczyć utratę entropii krzyżowej dla tego...

machine-learning deep-learning

35

Śmieszne cytaty związane z nauką danych

Zwyczajowo użytkownicy różnych społeczności cytują zabawne rzeczy na temat swoich dziedzin. Dzielenie się zabawnymi informacjami o uczeniu maszynowym, głębokim uczeniu się, nauce danych i rzeczach, z którymi codziennie się zmagasz, może być

machine-learning neural-network deep-learning

33

Multi GPU w kamerach

W jaki sposób można zaprogramować w bibliotece keras (lub tensorflow) szkolenie partycjonowania na wielu GPU? Powiedzmy, że jesteś w instancji Amazon ec2, która ma 8 procesorów graficznych i chciałbyś wykorzystać je wszystkie, aby trenować szybciej, ale twój kod dotyczy tylko jednego procesora lub...

python deep-learning tensorflow keras gpu

32

Intuicyjne wyjaśnienie utraty szumu (NCE)?

Czytam o NCE (forma próbkowania kandydata) z tych dwóch źródeł: Zapis Tensorflow Oryginalny papier Czy ktoś może mi pomóc w następujących kwestiach: Proste wyjaśnienie, w jaki sposób działa NCE (dla mnie powyższe było trudne do przeanalizowania i zrozumienia, więc coś intuicyjnego, które...

deep-learning tensorflow word-embeddings sampling loss-function

30

Czym jest Ground Truth

W kontekście uczenia maszynowego widziałem, że termin „ Prawda naziemna” jest często używany. Dużo szukałem i znalazłem następującą definicję w Wikipedii : W uczeniu maszynowym termin „podstawowa prawda” odnosi się do dokładności klasyfikacji zestawu szkoleniowego dla nadzorowanych technik...

machine-learning neural-network deep-learning

30

Głębokie uczenie się a zwiększanie gradientu: kiedy czego używać?

Mam problem z dużymi danymi z dużym zestawem danych (weźmy na przykład 50 milionów wierszy i 200 kolumn). Zestaw danych składa się z około 100 kolumn numerycznych i 100 kolumn kategorycznych oraz kolumny odpowiedzi reprezentującej problem klasy binarnej. Liczność każdej z kolumn jakościowych jest...

machine-learning classification deep-learning

30

Papier: jaka jest różnica między normalizacją warstw, normalizacją okresowej partii (2016) i normalizacją partii RNN (2015)?

Tak więc ostatnio jest papier do normalizacji warstw . Istnieje również jego implementacja w Keras. Ale pamiętam, że są artykuły zatytułowane Recurrent Batch Normalization (Cooijmans, 2016) i Batch Normalized Recurrent Neural Networks (Laurent, 2015). Jaka jest różnica między tymi...

deep-learning rnn normalization batch-normalization