Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i
Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i
Jeśli przetwarzamy powiedzmy 10 przykładów w partii, rozumiem, że możemy zsumować stratę dla każdego przykładu, ale jak działa propagacja wsteczna w odniesieniu do aktualizacji wag dla każdego przykładu? Na przykład: Przykład 1 -> strata = 2 Przykład 2 -> strata = -2 Powoduje to średnią...
Usiłuję stworzyć matematyczne połączenie między siecią neuronową a modelem graficznym. W modelach graficznych pomysł jest prosty: rozkład prawdopodobieństwa jest rozkładany na czynniki według klików na wykresie, przy czym potencjały zwykle należą do rodziny wykładniczej. Czy istnieje równoważne...
Opis: Niech domeną problemową będzie klasyfikacja dokumentów tam, gdzie istnieje zestaw wektorów cech, z których każdy należy do jednej lub więcej klas. Na przykład dokument doc_1może należeć do kategorii Sportsi English. Pytanie: Używając sieci neuronowej do klasyfikacji, jaka byłaby etykieta...
Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby...
Czy jest jakaś różnica między terminami „sieć neuronowa” i
Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione.P(y=1|x)P(y=1|x)P(y=1|x) Podsumowując, niektóre materiały pozwalają, by...
Ostatnio przeczytałem kilka artykułów na temat bayesowskiej sieci neuronowej (BNN) [Neal, 1992] , [Neal, 2012] , która podaje zależność prawdopodobieństwa między wejściem a wyjściem w sieci neuronowej. Trenowanie takiej sieci neuronowej odbywa się za pośrednictwem MCMC, która różni się od...
W książce Ian Goodfellow's Deep Learning napisano o tym Czasami funkcja utraty, o którą tak naprawdę dbamy (powiedzmy, błąd klasyfikacji), nie jest funkcją, którą można skutecznie zoptymalizować. Na przykład dokładne minimalizowanie oczekiwanej straty 0-1 jest zazwyczaj trudne (wykładnicze w...
Tak więc, patrząc na sieci neuronowe z funkcjami radialnymi, zauważyłem, że ludzie zawsze zalecają użycie 1 ukrytej warstwy, podczas gdy w wielowarstwowych sieciach neuronowych perceptronów więcej warstw uważa się za lepsze. Biorąc pod uwagę, że sieci RBF można trenować z wersją propagacji...
O ile mi wiadomo, zarówno autoencodery, jak i t-SNE są używane do nieliniowej redukcji wymiarowości. Jakie są między nimi różnice i dlaczego powinienem używać jednego kontra
Przede wszystkim: wiem, że do wyszkolenia sieci neuronowej nie jest wymagana ogólna liczba próbek. Zależy to od zbyt wielu czynników, takich jak złożoność zadania, szum danych i tak dalej. Im więcej próbek treningowych mam, tym lepsza będzie moja sieć. Zastanawiałem się jednak: czy teoretycznie...
Czytając Idąc głębiej ze zwojów natknąłem się DepthConcat warstwie bloku budowlanego proponowanych modułów Incepcja , który łączy wyjście wielu tensorów o różnej wielkości. Autorzy nazywają to „Filter Concatenation”. Wydaje się, że istnieje implementacja Torch , ale tak naprawdę nie rozumiem, co...
Patrzyłem na wykłady CS231N z Stanford i staram się ominąć niektóre problemy w architekturach CNN. Próbuję zrozumieć, czy istnieją jakieś ogólne wytyczne dotyczące wybierania rozmiaru filtra splotowego i rzeczy takich jak postępy, czy też jest to bardziej sztuka niż nauka? Rozumiem, że gromadzenie...
Jak zakodować datę i godzinę zdarzenia dla sieci neuronowej? Nie mam ciągłych szeregów czasowych, ale niektóre wydarzenia z datą i godziną, i analizuję pewne zainteresowania. Zainteresowanie to różni się między porankami i wieczorami i różni się między dniami powszednimi oraz między latem a zimą,...
Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego...
Zacząłem uczyć się o sieciach neuronowych w samouczku dotyczącym sieci neuronowych i programowania. W szczególności w trzecim rozdziale znajduje się sekcja o funkcji entropii krzyżowej i definiuje utratę entropii krzyżowej
Ostatnie postępy w sieciach neuronowych podsumowuje szereg nowatorskich architektur charakteryzujących się głównie rosnącą złożonością projektową. Od LeNet5 (1994) do AlexNet (2012), do Overfeat (2013) i GoogleLeNet / Inception (2014) i tak dalej ... Czy jest jakaś próba umożliwienia maszynie...
Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2: co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo...
Zarówno terminy „upsampling”, jak i „transponowanie splotu” są używane, gdy wykonujesz „dekonwolucję” (<- niezbyt dobry termin, ale pozwólcie, że użyję go tutaj). Początkowo myślałem, że oznaczają to samo, ale wydaje mi się, że różnią się po przeczytaniu tych artykułów. czy ktoś może...