Druga opublikowana przez ciebie architektura sieci neuronowej (CNN) pochodzi z tego artykułu . W artykule autorzy podają opis tego, co dzieje się między warstwami S2 i C3. Ich wyjaśnienie nie jest jednak bardzo jasne. Powiedziałbym, że ta architektura CNN nie jest „standardowa” i może być dość myląca jako pierwszy przykład dla CNN.
28 × 285 × 5M.× MN.× N.M.≥ N( M- N+ 1 ) × ( M- N+ 1 )
To, co dzieje się między warstwą S2 i warstwą C3, jest następujące. W warstwie C3 znajduje się 16 map obiektów utworzonych z 6 map obiektów w warstwie S2. Liczba filtrów w warstwie C3 rzeczywiście nie jest oczywista. W rzeczywistości, tylko na podstawie schematu architektury, nie można ocenić, jaka jest dokładna liczba filtrów, które tworzą te 16 map obiektów. Autorzy artykułu przedstawiają następującą tabelę (strona 8):
W tabeli znajdują się następujące wyjaśnienia (na dole strony 7):
5 × 5
W tabeli autorzy pokazują, że każda mapa obiektów w warstwie C3 jest tworzona przez połączenie 3 lub więcej map obiektów (strona 8):
Pierwsze sześć map obiektów C3 pobiera dane wejściowe z każdego ciągłego podzbioru trzech map obiektów w S2. Następne sześć pobiera dane wejściowe z każdego ciągłego podzestawu czterech. Następne trzy pobierają dane z niektórych nieciągłych podzbiorów czterech. Wreszcie ostatni pobiera dane ze wszystkich map obiektów S2.
Ile jest filtrów w warstwie C3? Niestety nie wyjaśniają tego. Dwie najprostsze możliwości to:
- Istnieje jeden filtr na mapę funkcji S2 na mapę funkcji C3, tzn. Nie ma współdzielenia filtra między mapami funkcji S2 powiązanymi z tą samą mapą funkcji C3.
- Istnieje jeden filtr na mapę obiektów C3, który jest wspólny dla (3 lub więcej) map obiektów warstwy S2, które są połączone.
W obu przypadkach „połączenie” oznaczałoby, że wyniki splotu na grupę map obiektów S2 musiałyby zostać połączone w celu wytworzenia map obiektów C3. Autorzy nie określają, jak to się robi, ale dodawanie jest powszechnym wyborem (patrz na przykład animowany gif w pobliżu środka tej strony .
Autorzy podają jednak dodatkowe informacje, które mogą pomóc nam w rozszyfrowaniu architektury. Mówią, że „warstwa C3 ma 1 516 możliwych do wyuczenia parametrów” (strona 8). Możemy wykorzystać te informacje do podjęcia decyzji pomiędzy sprawami (1) i (2) powyżej.
W przypadku (1) mamy 5 × 5 × 60 = 1 , 500 1 , 500 + 16 = 1 , 516( 6 × 3 ) + ( 9 × 4 ) + ( 1 × 6 ) = 60( 14 - 10 + 1 ) x ( 14 - 10 + 1 ) = 5 x 55 × 5 × 60 = 1 , 5001 , 500 + 16 = 1 , 516( 5 × 5 × 16 ) + 16 = 416
Dlatego, jeśli spojrzymy ponownie na tabelę I powyżej, istnieje 10 różnych filtrów C3 powiązanych z każdą mapą funkcji S2 (a więc łącznie 60 różnych filtrów).
Autorzy wyjaśniają ten rodzaj wyboru:
Różne mapy obiektów [w warstwie C3] są zmuszone wyodrębniać różne (miejmy nadzieję komplementarne) cechy, ponieważ otrzymują różne zestawy danych wejściowych.
Mam nadzieję, że to wyjaśnia sytuację.