Dlaczego ludzie nie używają głębszych RBF lub RBF w połączeniu z MLP?

12

Tak więc, patrząc na sieci neuronowe z funkcjami radialnymi, zauważyłem, że ludzie zawsze zalecają użycie 1 ukrytej warstwy, podczas gdy w wielowarstwowych sieciach neuronowych perceptronów więcej warstw uważa się za lepsze.

Biorąc pod uwagę, że sieci RBF można trenować z wersją propagacji wstecznej, czy istnieją jakieś powody, dla których głębsze sieci RBF nie będą działać, lub że warstwa RBF nie może być używana jako przedostatnia lub pierwsza warstwa w głębokiej sieci MLP? (Myślałem o przedostatniej warstwie, aby można ją było zasadniczo wyszkolić w zakresie funkcji poznanych przez poprzednie warstwy MLP)

użytkownik1646196
źródło
Nie jestem ekspertem od NN, ale mam wrażenie, że ze standardowymi NN z przekazywaniem, wiele ukrytych warstw zazwyczaj nie dodaje wiele.
Gung - Przywróć Monikę
1
Tak było we wcześniejszych dniach badań NN, jednak obecnie więcej warstw jest zazwyczaj receptą na większą wydajność (głębokie uczenie się). Myślę, że obecnie ulubionym podejściem jest inteligentna inicjalizacja, jak najwięcej warstw, regularyzacja poprzez dropout i softmax zamiast aktywacji sigmoidalnych, aby uniknąć nasycenia. (Ale mogę się mylić co do technik). Myślę, że niektórzy ludzie używają iteracyjnego pogłębiania, aby uzyskać lepsze wyniki. Ponadto Google uzyskał najnowocześniejsze rozwiązania w imageNet w 2014 r. Dzięki sieci 100 warstwowej.
user1646196

Odpowiedzi:

4

Podstawowym problemem jest to, że RBF są a) zbyt nieliniowe, b) nie redukują wymiarów.

z powodu a) RBF były zawsze trenowane metodą k-średnich, a nie gradientem opadania.

Twierdziłbym, że głównym sukcesem w Deep NNs są sieci, w których jedną z kluczowych części jest redukcja wymiarów: chociaż pracując z powiedzmy 128x128x3 = 50 000 wejść, każdy neuron ma ograniczone pole recepcyjne i w każdej warstwie jest znacznie mniej neuronów W danej warstwie w MLP - każdy neuron reprezentuje cechę / wymiar), więc stale redukujesz wymiarowość (przechodząc od warstwy do warstwy).

Chociaż można uczynić adaptacyjną macierz kowariancji RBF, podobnie jak redukcja wymiarów, to jeszcze trudniej trenować.

seanv507
źródło
Niedawno przeczytałem artykuł, w którym zaproponowano algorytm propagacji wstecznej do szkolenia sieci RBF. Biorąc to pod uwagę, może to być korzyść z posiadania RBF jako ostatniej warstwy w głębokiej sieci? Przypuszczam, że w tej formie reszta głębokiej sieci w zasadzie wykrywa funkcje, które RBF może sklasyfikować
użytkownik1646196
może powinieneś zamieścić link do artykułu, a wtedy ludzie mogą udzielić bardziej świadomych odpowiedzi. Nie widzę żadnej korzyści ... biorąc pod uwagę, że RBF jest zbyt nieliniowy (i np. Sigmoidy zostały zastąpione przez relu, ponieważ były zbyt nieliniowo-zanikające gradientem ...). Ludzie ćwiczą z siecią konwekcyjną ze standardowym MLP na górze, a następnie wyrzucają MLP i używają
SVM
Artykuł brzmi „Szkolenie sieci RBF z selektywną propagacją wsteczną”, nie jestem pewien, czy możesz go tutaj przeczytać lub czy istnieje paywall sciencedirect.com/science/article/pii/S0925231203005411 . Nie wiedziałem, że sigmoidy zostały zastąpione przez relu z powodu nieliniowości, ale biorąc pod uwagę, że widzę, w jaki sposób można by uniknąć zwiększonej nieliniowości.
Oznaczę