Czy istnieje standardowa i akceptowana metoda wyboru liczby warstw i liczby węzłów w każdej warstwie w sieci neuronowej z przekazywaniem? Interesują mnie zautomatyzowane sposoby budowania sieci
Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Czy istnieje standardowa i akceptowana metoda wyboru liczby warstw i liczby węzłów w każdej warstwie w sieci neuronowej z przekazywaniem? Interesują mnie zautomatyzowane sposoby budowania sieci
Kiedy trenujesz sieć neuronową, jaką różnicę ma ustawienie: Wielkość partii z i liczby iteracjibzazaabbb w porównaniu do wielkości partii do i liczby iteracji doddodocrered gdziea b = c dzab=dore ab = cd ? Innymi słowy, zakładając, że trenujemy sieć neuronową z taką samą liczbą przykładów...
Jestem pewien, że wiele osób odpowie linkami „pozwól mi google go dla ciebie”, więc chcę powiedzieć, że próbowałem to rozgryźć, więc proszę wybacz mi brak zrozumienia tutaj, ale nie mogę zrozumieć, w jaki sposób praktyczne wdrożenie sieci neuronowej faktycznie działa. Rozumiem warstwę wejściową i...
Używam Python Keras packagedo sieci neuronowej. To jest link . Czy batch_sizejest równa liczbie próbek testowych? Z Wikipedii mamy tę informację: Jednak w innych przypadkach ocena gradientu sumy może wymagać kosztownej oceny gradientów ze wszystkich funkcji sumowania. Gdy zestaw treningowy jest...
Trenuję sieć neuronową, ale utrata treningu nie maleje. Jak mogę to naprawić? Nie pytam o nadmierne dopasowanie lub regularyzację. Pytam o sposób rozwiązania problemu, w którym wydajność mojej sieci nie poprawia się w zestawie szkoleniowym . To pytanie jest celowo ogólne, aby inne pytania...
Najnowszym stanem nieliniowości jest stosowanie rektyfikowanych jednostek liniowych (ReLU) zamiast funkcji sigmoidalnej w głębokiej sieci neuronowej. Jakie są zalety? Wiem, że szkolenie sieci przy użyciu ReLU byłoby szybsze i jest bardziej inspirowane biologicznie, jakie są inne zalety? (Czyli...
Jakie są typowe funkcje kosztów wykorzystywane do oceny wydajności sieci neuronowych? Detale (pomiń resztę tego pytania, moim celem jest tutaj wyjaśnienie notacji, w której odpowiedzi mogą pomóc, aby były bardziej zrozumiałe dla ogólnego czytelnika) Myślę, że dobrze byłoby mieć listę typowych...
Ostatnio czytałem o głębokim uczeniu się i jestem zdezorientowany terminami (lub powiedzmy technologiami). Jaka jest różnica pomiędzy Konwolucyjne sieci neuronowe (CNN), Ograniczone maszyny Boltzmann (RBM) i
Nie widziałem dokładnie takiego pytania i dlatego zadaję nowe pytanie. To, co mnie interesuje, to nie definicja sieci neuronowej, ale zrozumienie faktycznej różnicy z głęboką siecią neuronową. Więcej kontekstu: wiem, czym jest sieć neuronowa i jak działa propagacja wsteczna. Wiem, że DNN musi...
Obecnie prowadzę samouczek dogłębnej nauki Udacity. W lekcji 3 rozmawiają o zwoju 1x1. Ten splot 1x1 jest używany w module Google Inception. Mam problem ze zrozumieniem, czym jest splot 1x1. Widziałem również ten post przez Yann Lecun. Czy ktoś mógłby mi to
W kontekście sieci neuronowych, jaka jest różnica między współczynnikiem uczenia się a spadkiem masy ciała?
Wiele książek i samouczków dotyczących sieci neuronowych spędza dużo czasu na algorytmie propagacji wstecznej, który jest zasadniczo narzędziem do obliczania gradientu. Załóżmy, że budujemy model z ~ 10 000 parametrów / wag. Czy można uruchomić optymalizację przy użyciu niektórych algorytmów...
W wielu bibliotekach sieci neuronowych istnieją „warstwy osadzania”, jak w Keras lub Lasagne . Nie jestem pewien, czy rozumiem jego funkcję, pomimo przeczytania dokumentacji. Na przykład w dokumentacji Keras napisano: Zamień dodatnie liczby całkowite (indeksy) na wektory den o stałym rozmiarze,...
Jestem nowy w uczeniu maszynowym i starałem się dowiedzieć, jak zastosować sieć neuronową do prognozowania szeregów czasowych. Znalazłem zasoby związane z moim zapytaniem, ale nadal wydaje mi się, że jestem trochę zagubiony. Myślę, że podstawowe wyjaśnienie bez zbyt wielu szczegółów...
Funkcja aktywacji tanh to: t a n h ( x ) = 2 ⋅ σ( 2 x ) - 1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Gdzie , funkcja sigmoidalna jest zdefiniowana jako: σ ( x ) = e xσ( x )σ(x)\sigma(x) .σ( x ) = ex1 + exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} Pytania:...
W ostatnich latach splotowe sieci neuronowe (lub ogólnie głębokie sieci neuronowe) stały się coraz głębsze, a najnowocześniejsze sieci przechodzą z 7 warstw ( AlexNet ) do 1000 warstw ( sieci resztkowych) na przestrzeni 4 lat Przyczyną wzrostu wydajności z głębszej sieci jest to, że można się...
Epoka stochastycznego spadku gradientu jest definiowana jako pojedyncze przejście przez dane. Dla każdego minibatchu SGD rysuje się kkk próbek, oblicza gradient i aktualizuje parametry. W ustawieniu epoki próbki są rysowane bez zamiany. Ale to wydaje się niepotrzebne. Dlaczego nie narysować...
Właśnie usłyszałem, że dobrym pomysłem jest wybór początkowych wag sieci neuronowej z zakresu , gdzie jest liczba wejść do danego neuronu. Zakłada się, że zbiory są znormalizowane - średnia 0, wariancja 1 (nie wiem, czy to ma znaczenie).d( - 1re√, 1re√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt...
Nawracające sieci neuronowe różnią się od „zwykłych” siecią tym, że mają warstwę „pamięci”. Z powodu tej warstwy rekurencyjne NN powinny być przydatne w modelowaniu szeregów czasowych. Nie jestem jednak pewien, czy dobrze rozumiem, jak ich używać. Powiedzmy, że mam następujące szeregi czasowe (od...
Czy istnieją jakieś ogólne wytyczne dotyczące miejsca umieszczania warstw odpadających w sieci