Czym różni się warstwa splotowa od zwykłej sieci splotowej?

9

Obecnie pracuję nad odtworzeniem wyników tego artykułu . W artykule opisują metodę wykorzystania CNN do ekstrakcji cech i mają model akustyczny, który jest Dnn-hmm i wstępnie przeszkolony przy użyciu RBM.

Sekcja III podsekcja A określa różne sposoby reprezentacji danych wejściowych. Zdecydowałem się na pionowe ułożenie wykresów widmowych w statycznym, delcie i delcie delta.

Jako taki: wprowadź opis zdjęcia tutaj

Artykuł opisuje, jak powinna wyglądać sieć. Twierdzą, że używają sieci splotowej, ale nic o strukturze sieci ?. Co więcej, czy sieć jest zawsze określana jako warstwa splotowa? na pewno widzę różnicę w porównaniu do zwykłej sieci neuronowej splotowej (cnn).

Artykuł stwierdza to w odniesieniu do różnicy:

(z sekcji III podsekcja B)

Warstwa splotu różni się jednak od standardowej, w pełni połączonej warstwy ukrytej pod dwoma ważnymi względami. Po pierwsze, każda jednostka splotowa odbiera dane wejściowe tylko z lokalnego obszaru danych wejściowych. Oznacza to, że każda jednostka reprezentuje niektóre cechy lokalnego regionu wejścia. Po drugie, jednostki warstwy splotowej mogą same być zorganizowane w kilka map obiektów, gdzie wszystkie jednostki w tej samej mapie obiektów mają takie same ciężary, ale otrzymują dane wejściowe z różnych lokalizacji dolnej warstwy

Kolejną rzeczą, nad którą się zastanawiałem, jest to, czy papier faktycznie określa, ile parametrów wyjściowych jest potrzebnych do zasilania modelu akustycznego dnn-hmm. Nie mogę zdekodować liczby filtrów, rozmiarów filtrów ... w ogólnych szczegółach sieci?

Carlton Banks
źródło
Interesuje mnie to również. Chyba mogę rozpocząć nagrodę, aby przyspieszyć proces.
Lamda

Odpowiedzi:

4

Wydaje się, że warstwa splotowa jest dokładnie taka sama jak zwykła warstwa splotowa. W swoim artykule dowodzą, że termin „warstwa CNN” zwykle odnosi się do warstwy splotowej, po której następuje warstwa puli. Próbując zmniejszyć zamieszanie, nazywają część splotową „warstwą splotu”, a część puli „warstwą puli”:

W terminologii CNN para warstw splotu i puli na ryc. 2 jest kolejno nazywana „jedną warstwą CNN”. Głęboka CNN składa się zatem z dwóch lub więcej następujących po sobie par. Aby uniknąć zamieszania, będziemy odnosić się do warstw splotu i puli odpowiednio do warstw splotu i puli.

Jak na ironię, zwiększyło to zamieszanie, prowadzące do tego postu. Wydaje mi się, że w tamtym czasie nie było wielu warstw splotowych z rzędu przed warstwą puli, ale często to widzimy we współczesnych architekturach.

Aby odpowiedzieć na inne pytanie dotyczące struktury sieci; określają strukturę sieci, której używają w sekcji Eksperymenty (sekcja VB). Aby, miejmy nadzieję, zmniejszyć zamieszanie, zastąpiłem słowo „warstwa” słowem „warstwa”:

W tych eksperymentach wykorzystaliśmy jedną splot [warstwę], jedną pulę [warstwę] i dwie w pełni połączone ukryte warstwy na górze. W pełni połączone warstwy miały po 1000 jednostek. Parametry splotu i puli były następujące: wielkość puli 6, wielkość przesunięcia 2, rozmiar filtra 8, 150 map cech dla FWS i 80 map cech dla pasma częstotliwości dla LWS.

wykres czasu
źródło