Tak więc, patrząc na sieci neuronowe z funkcjami radialnymi, zauważyłem, że ludzie zawsze zalecają użycie 1 ukrytej warstwy, podczas gdy w wielowarstwowych sieciach neuronowych perceptronów więcej warstw uważa się za lepsze.
Biorąc pod uwagę, że sieci RBF można trenować z wersją propagacji wstecznej, czy istnieją jakieś powody, dla których głębsze sieci RBF nie będą działać, lub że warstwa RBF nie może być używana jako przedostatnia lub pierwsza warstwa w głębokiej sieci MLP? (Myślałem o przedostatniej warstwie, aby można ją było zasadniczo wyszkolić w zakresie funkcji poznanych przez poprzednie warstwy MLP)
machine-learning
neural-networks
rbf-network
użytkownik1646196
źródło
źródło
Odpowiedzi:
Podstawowym problemem jest to, że RBF są a) zbyt nieliniowe, b) nie redukują wymiarów.
z powodu a) RBF były zawsze trenowane metodą k-średnich, a nie gradientem opadania.
Twierdziłbym, że głównym sukcesem w Deep NNs są sieci, w których jedną z kluczowych części jest redukcja wymiarów: chociaż pracując z powiedzmy 128x128x3 = 50 000 wejść, każdy neuron ma ograniczone pole recepcyjne i w każdej warstwie jest znacznie mniej neuronów W danej warstwie w MLP - każdy neuron reprezentuje cechę / wymiar), więc stale redukujesz wymiarowość (przechodząc od warstwy do warstwy).
Chociaż można uczynić adaptacyjną macierz kowariancji RBF, podobnie jak redukcja wymiarów, to jeszcze trudniej trenować.
źródło