Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i
Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i
Jak zakodować datę i godzinę zdarzenia dla sieci neuronowej? Nie mam ciągłych szeregów czasowych, ale niektóre wydarzenia z datą i godziną, i analizuję pewne zainteresowania. Zainteresowanie to różni się między porankami i wieczorami i różni się między dniami powszednimi oraz między latem a zimą,...
Interesuje mnie (Deep) Reinforcement Learning (RL) . Czy przed nurkowaniem w tym polu powinienem wziąć udział w kursie z teorii gier (GT) ? W jaki sposób powiązane są GT i RL
Osoba z zewnątrz w polu ML / DL; rozpoczął kurs głębokiego uczenia Udacity oparty na Tensorflow; wykonanie zadania 4 zadanie 4; próba dostrojenia szybkości uczenia się za pomocą następującej konfiguracji: Wielkość partii 128 Liczba kroków: wystarczy, aby wypełnić 2 epoki Rozmiary ukrytych warstw:...
W uczeniu maszynowym (w przypadku problemów z regresją) często widzę błąd średniej kwadratowej (MSE) lub średni błąd bezwzględny (MAE) jako funkcję błędu w celu zminimalizowania (plus termin regularyzacji). Zastanawiam się, czy istnieją sytuacje, w których zastosowanie współczynnika korelacji...
Ostatnie postępy w sieciach neuronowych podsumowuje szereg nowatorskich architektur charakteryzujących się głównie rosnącą złożonością projektową. Od LeNet5 (1994) do AlexNet (2012), do Overfeat (2013) i GoogleLeNet / Inception (2014) i tak dalej ... Czy jest jakaś próba umożliwienia maszynie...
W książce Ian Goodfellow's Deep Learning napisano o tym Czasami funkcja utraty, o którą tak naprawdę dbamy (powiedzmy, błąd klasyfikacji), nie jest funkcją, którą można skutecznie zoptymalizować. Na przykład dokładne minimalizowanie oczekiwanej straty 0-1 jest zazwyczaj trudne (wykładnicze w...
Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2: co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo...
Chcę poznać różnicę między regresją liniową w regularnej analizie uczenia maszynowego a regresją liniową w ustawieniu „głębokiego uczenia”. Jakie algorytmy są stosowane do regresji liniowej w ustawieniach głębokiego uczenia
Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione.P(y=1|x)P(y=1|x)P(y=1|x) Podsumowując, niektóre materiały pozwalają, by...
Patrzyłem na wykłady CS231N z Stanford i staram się ominąć niektóre problemy w architekturach CNN. Próbuję zrozumieć, czy istnieją jakieś ogólne wytyczne dotyczące wybierania rozmiaru filtra splotowego i rzeczy takich jak postępy, czy też jest to bardziej sztuka niż nauka? Rozumiem, że gromadzenie...
I rozumie, że dany zestaw niezależnych obserwacji największej wiarygodności Estymator (lub równoważnie MAP o płaskich / jednolity wcześniej), który identyfikuje Parametry \ mathbf {θ} , które wytwarzają model dystrybucji p_ {wzór} \ left (\, \ cdot \,; \ mathbf {θ} \ right) najlepiej pasujące do...
Podczas wdrażania autoencodera z siecią neuronową większość osób użyje sigmoid jako funkcji aktywacyjnej. Czy zamiast tego możemy użyć ReLU? (Ponieważ ReLU nie ma limitu górnej granicy, w zasadzie oznacza to, że obraz wejściowy może mieć piksel większy niż 1, w przeciwieństwie do ograniczonych...
Załóżmy, że chcę nauczyć się klasyfikatora, który przyjmuje wektor liczb jako dane wejściowe i podaje etykietę klasy jako dane wyjściowe. Moje dane treningowe składają się z dużej liczby par przepływów międzygałęziowych. Jednak kiedy przechodzę do testowania niektórych nowych danych, dane te są...
W jaki sposób mapy aktywacyjne na danej warstwie są połączone z filtrami dla tej warstwy? Nie pytam o to, jak wykonać operację splotu między filtrem a mapą aktywacyjną, pytam o rodzaj łączności tych dwóch. Powiedzmy na przykład, że chcesz uzyskać pełną łączność. Masz liczbę filtrów i liczbę map...
Chcę użyć głębokiego uczenia się, aby trenować wykrywanie binarne twarzy / twarzy, jakiej straty powinienem użyć, myślę, że to SigmoidCrossEntropyLoss lub utrata zawiasów . Zgadza się, ale zastanawiam się też, czy powinienem używać softmax, ale tylko z dwiema
Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec. W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową...
Ostatnio widzieliśmy pojawienie się Residual Neural Net, w której każda warstwa składa się z modułu obliczeniowego i połączenia skrótowego, które zachowuje dane wejściowe do warstwy, takie jak dane wyjściowe z i-tej warstwy: Sieć pozwala wydobyć pozostałe cechy i pozwala na głębszą głębię, będąc...
Wdrożyłem dość popularny artykuł „ WYJAŚNIANIE I PRZESYŁANIE PRZYKŁADÓW ADVERSARIALNYCH ”, a w artykule trenuje funkcję celu przeciwnika J '' (θ) = αJ (θ) + (1 - α) J '(θ). Traktuje α jako hiperparametr. α może wynosić 0,1, 0,2, 0,3 itd. Niezależnie od tego konkretnego artykułu zastanawiam się,...
Niedawno uświadomiłem sobie, że w literaturze omawiane są metody „pozbawione prawdopodobieństwa”. Nie jestem jednak pewien, co to znaczy, że metoda wnioskowania lub optymalizacji jest wolna od prawdopodobieństwa . W uczeniu maszynowym celem jest zazwyczaj maksymalizacja prawdopodobieństwa, że...