Pytania oznaczone «neural-networks»

44
Która funkcja aktywacji dla warstwy wyjściowej?

Chociaż wybór funkcji aktywacji dla ukrytej warstwy jest dość jasny (głównie sigmoid lub tanh), zastanawiam się, jak zdecydować o funkcji aktywacji dla warstwy wyjściowej. Często wybierane są funkcje liniowe, funkcje sigmoidalne i funkcje softmax. Kiedy jednak powinienem użyć...

43
Warstwa Softmax w sieci neuronowej

Próbuję dodać warstwę softmax do sieci neuronowej wyuczonej z propagacji wstecznej, więc próbuję obliczyć jej gradient. Wyjście softmax to gdzie jest wyjściowym numerem neuronu.hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Jeśli to uzyskam, to

42
Co to jest maxout w sieci neuronowej?

Czy ktoś może wyjaśnić, co robią jednostki maxout w sieci neuronowej? Jak działają i czym różnią się od konwencjonalnych jednostek? Próbowałem przeczytać artykuł „Maxout Network” z 2013 r. Goodfellow i in. (z grupy profesora Yoshua Bengio), ale nie do końca to...

36
Uczenie maszynowe: czy powinienem stosować kategoryczną utratę entropii krzyżowej lub utratę entropii krzyżowej binarnej do prognoz binarnych?

Przede wszystkim zdałem sobie sprawę, że jeśli muszę wykonać przewidywania binarne, muszę utworzyć co najmniej dwie klasy, wykonując kodowanie „na gorąco”. Czy to jest poprawne? Czy jednak binarna entropia krzyżowa dotyczy tylko predykcji z tylko jedną klasą? Gdybym miał zastosować kategoryczną...

35
W jaki sposób LSTM zapobiega problemowi zanikania gradientu?

LSTM został opracowany specjalnie w celu uniknięcia problemu zanikania gradientu. Ma to zrobić za pomocą karuzeli Constant Error (CEC), która na poniższym schemacie ( Greff i in. ) Odpowiada pętli wokół komórki . (źródło: deeplearning4j.org ) Rozumiem, że ta część może być postrzegana jako...