Pytania oznaczone «neural-networks»

21
Zwiększenie sieci neuronowych

Niedawno pracowałem nad uczeniem się algorytmów wzmacniających, takich jak adaboost, zwiększanie gradientu i wiedziałem, że najczęściej używanym słabym uczniem są drzewa. Naprawdę chcę wiedzieć, czy istnieją pewne udane przykłady (mam na myśli kilka artykułów lub artykułów) wykorzystania sieci...

21
Od reguły Perceptron do zejścia gradientu: Czym różnią się Perceptrony z funkcją aktywacji sigmoidalnej od regresji logistycznej?

Zasadniczo moje pytanie brzmi: w perceptronach wielowarstwowych perceptrony są używane z funkcją aktywacji sigmoidalnej. Tak więc w regule aktualizacji jest obliczany jakoy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Czym zatem ten...

21
Jak i dlaczego normalizacja wsadowa wykorzystuje średnie ruchome do śledzenia dokładności modelu podczas treningu?

Czytałem artykuł z normalizacji wsadowej (BN) (1) i nie rozumiałem potrzeby używania średnich ruchomych do śledzenia dokładności modelu, a nawet jeśli zaakceptowałem, że było to właściwe, nie rozumiem co dokładnie robią. W moim rozumieniu (co się mylę) w dokumencie wspomniano, że wykorzystuje on...

20
Od sieci bayesowskich po sieci neuronowe: w jaki sposób można zastosować regresję wielowymiarową do sieci z wieloma wyjściami

Mam do czynienia z bayesowskim hierarchicznym modelem liniowym , tutaj sieć go opisująca. YYY oznacza dzienną sprzedaż produktu w supermarkecie (zaobserwowano). XXX jest znaną matrycą regresorów, w tym cen, promocji, dnia tygodnia, pogody i świąt. S.S.S to nieznany ukryty poziom zapasów...

20
Różnica między sprzężeniem zwrotnym RNN i LSTM / GRU

Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest...

20
Kodowanie danych kąta dla sieci neuronowej

Uczę sieci neuronowej (szczegóły nieważne), gdzie dane docelowe to wektor kątów (od 0 do 2 * pi). Szukam porady, jak zakodować te dane. Oto, co obecnie próbuję (z ograniczonym sukcesem): 1) Kodowanie 1-of-C: I bin ustawiam możliwe kąty na około 1000 dyskretnych kątów, a następnie wskazuję...

19
Algorytm wstecznej propagacji

Mam lekką dezorientację na wstecznej propagacji błędów algorytmu stosowanego w perceptronu wielowarstwowego (MLP). Błąd jest regulowana przez funkcję kosztów. W wstecznej propagacji błędów, staramy się dostosować ciężar warstw ukrytych. Błąd wyjściowy, który rozumiem, to znaczy e = d - y[Bez...