Jaka jest różnica między epoką a iteracją podczas treningu perceptronu
Głębokie uczenie się to dziedzina uczenia maszynowego, której celem jest nauka złożonych funkcji przy użyciu specjalnych architektur sieci neuronowych, które są „głębokie” (składają się z wielu warstw). Tego tagu należy używać w przypadku pytań dotyczących implementacji architektur uczenia głębokiego. Ogólne pytania dotyczące systemów uczących się należy oznaczyć tagiem „systemy uczące się”. Pomocne jest dołączenie znacznika do odpowiedniej biblioteki oprogramowania (np. „Keras”, „tensorflow”, „pytorch”, „fast.ai” itd.).
Jaka jest różnica między epoką a iteracją podczas treningu perceptronu
Próbuję pogodzić moje rozumienie LSTM i wskazałem tutaj w tym poście Christophera Olaha zaimplementowanego w Keras. Śledzę ten blog napisany przez Jason Brownlee za tutorial Keras. Głównie jestem zdezorientowany: Przekształcenie serii danych w [samples, time steps, features]i, Stanowe LSTM...
Jaka jest różnica między „sam” i „skuteczne” w wyściółką tf.nn.max_poolz tensorflow? Moim zdaniem „WAŻNE” oznacza, że nie będzie zerowania na krawędziach, gdy wykonamy maksymalną pulę. Według Przewodnika po arytmetyki splotowej dla głębokiego uczenia się , mówi, że operator puli nie będzie...
Dla każdej warstwy Keras ( Layerklasy), może ktoś wyjaśnić jak należy rozumieć różnicę między input_shape, units, dim, itd.? Na przykład dokument mówi, że unitsokreśl wyjściowy kształt warstwy. Na zdjęciu sieci neuronowej poniżej hidden layer1ma 4 jednostki. Czy to bezpośrednio przekłada się na...
W poniższej funkcji TensorFlow musimy zasilać aktywację sztucznych neuronów w końcowej warstwie. Że rozumiem Ale nie rozumiem, dlaczego nazywa się to logitami? Czy to nie jest funkcja matematyczna? loss_function = tf.nn.softmax_cross_entropy_with_logits( logits = last_layer, labels =...
Kiedy trenowałem moją sieć neuronową za pomocą Theano lub Tensorflow, będą zgłaszać zmienną o nazwie „utrata” na epokę. Jak mam interpretować tę zmienną? Wyższa strata jest lepsza lub gorsza, lub co to oznacza dla ostatecznego działania (dokładności) mojej sieci...
Szukałem alternatywnych sposobów zapisania wytrenowanego modelu w PyTorch. Jak dotąd znalazłem dwie alternatywy. torch.save (), aby zapisać model i torch.load (), aby załadować model. model.state_dict (), aby zapisać wytrenowany model i model.load_state_dict (), aby załadować zapisany...
Próbuję wytresować CNN do kategoryzowania tekstu według tematu. Kiedy używam binarnej entropii krzyżowej, uzyskuję ~ 80% dokładności, przy kategorycznej entropii krzyżowej uzyskuję ~ 50% dokładności. Nie rozumiem, dlaczego tak jest. Jest to problem wieloklasowy, czy nie oznacza to, że muszę używać...
tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None) Nie rozumiem obowiązku tej funkcji. Czy to jest jak tabela przeglądowa? Co oznacza zwrócenie parametrów odpowiadających każdemu identyfikatorowi (w identyfikatorach)? Na przykład w skip-grammodelu, jeśli używamy...
Wyszkoliłem binarny model klasyfikacji w CNN, a oto mój kod model = Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode='valid', input_shape=input_shape)) model.add(Activation('relu')) model.add(Convolution2D(nb_filters, kernel_size[0],...
Czytałem kilka rzeczy na temat sieci neuronowych i rozumiem ogólną zasadę jednowarstwowej sieci neuronowej. Rozumiem potrzebę dodatkowych warstw, ale dlaczego są używane nieliniowe funkcje aktywacji? Po tym pytaniu następuje pytanie: Do czego służy pochodna funkcji aktywacji wykorzystywanej w...
Czy ktoś mógłby jasno wyjaśnić na przykładach różnicę między konwolucjami 1D, 2D i 3D w konwolucyjnych sieciach neuronowych (w uczeniu
Metodę zero_grad()należy wywołać podczas treningu. Ale dokumentacja nie jest zbyt pomocna | zero_grad(self) | Sets gradients of all model parameters to zero. Dlaczego musimy wywołać tę metodę?
Jak zainicjować wagi i odchylenia (na przykład z inicjalizacją He lub Xavier) w sieci w PyTorch?
Próbuję zrozumieć rolę tej Flattenfunkcji w Keras. Poniżej znajduje się mój kod, który jest prostą siecią dwuwarstwową. Pobiera dwuwymiarowe dane kształtu (3, 2) i generuje jednowymiarowe dane kształtu (1, 4): model = Sequential() model.add(Dense(16, input_shape=(3,
Próbuję zrozumieć LSTM i jak je zbudować za pomocą Keras. Dowiedziałem się, że są zasadniczo 4 tryby do uruchomienia RNN (4 właściwe na zdjęciu) Źródło obrazu: Andrej Karpathy Teraz zastanawiam się, jak wyglądałby minimalistyczny fragment kodu dla każdego z nich w Keras. Więc coś w stylu model...
Jeśli mamy 10 wektorów własnych, to możemy mieć 10 węzłów neuronowych w warstwie wejściowej. Jeśli mamy 5 klas wyjściowych, to możemy mieć 5 węzłów w warstwie wyjściowej, ale jakie są kryteria wyboru liczby ukrytych warstw w MLP i ile neuronów węzły w 1 ukrytej...
Trenuję sieć neuronową dla mojego projektu przy użyciu Keras. Keras zapewnia funkcję wczesnego zatrzymywania. Czy mogę wiedzieć, jakie parametry należy obserwować, aby uniknąć nadmiernego dopasowania mojej sieci neuronowej przez zastosowanie wczesnego zatrzymywania?
Biorąc pod uwagę przykładowy kod . Chciałbym wiedzieć, jak zastosować obcinanie gradientu w tej sieci w sieci RNN, gdzie istnieje możliwość eksplozji gradientów. tf.clip_by_value(t, clip_value_min, clip_value_max, name=None) To jest przykład, który można wykorzystać, ale gdzie mam go...
Niedawno przejrzałem interesującą implementację klasyfikacji konwolucyjnej tekstu . Jednak cały kod TensorFlow, który sprawdziłem, używa losowych (nie wstępnie wytrenowanych) wektorów osadzających, takich jak następujące: with tf.device('/cpu:0'), tf.name_scope("embedding"): W = tf.Variable(...