Architekturę wąskiego gardła definiujemy jako typ znaleziony w dokumencie ResNet, w którym [dwie warstwy konwekcyjne 3x3] są zastępowane przez [jedna konwekcja 1x1, jedna konwekcja 3x3 i kolejna warstwa konwekcyjna 1x1].
Rozumiem, że warstwy konwekcji 1x1 są używane jako forma redukcji wymiarów (i przywracania), co wyjaśniono w innym poście . Nie jestem jednak pewien, dlaczego ta struktura jest tak skuteczna jak oryginalny układ.
Niektóre dobre wyjaśnienia mogą obejmować: Jaką długość kroku stosuje się i na jakich warstwach? Jakie są przykładowe wymiary wejściowe i wyjściowe każdego modułu? W jaki sposób mapy obiektów 56x56 są przedstawione na powyższym schemacie? Czy 64-d odnosi się do liczby filtrów, dlaczego to się różni od filtrów 256-d? Ile wag lub FLOP używa się na każdej warstwie?
Każda dyskusja jest bardzo mile widziana!
źródło
Odpowiedzi:
Architektura wąskiego gardła jest stosowana w bardzo głębokich sieciach ze względów obliczeniowych.
Aby odpowiedzieć na pytania:
Mapy obiektów 56x56 nie są przedstawione na powyższym obrazku. Ten blok jest pobierany z ResNet o wielkości wejściowej 224 x 224. 56x56 to próbkowana wersja wejścia na niektórych warstwach pośrednich.
64-d odnosi się do liczby map obiektów (filtrów). Architektura wąskiego gardła ma 256-d, po prostu dlatego, że jest przeznaczona dla znacznie głębszej sieci, która prawdopodobnie przyjmuje obraz o wyższej rozdzielczości jako dane wejściowe, a zatem wymaga większej liczby map obiektów.
Patrz tej wartości dla parametrów każdej warstwy gardła w ResNet 50.
źródło
Naprawdę uważam, że drugi punkt odpowiedzi Newsteina jest mylący.
64-d
Lub256-d
powinien odnosić się do liczby kanałów na mapie fabularnego wejście - nie liczba funkcji wejściowej mapy.Rozważ blok „wąskiego gardła” (po prawej stronie rysunku) w pytaniu PO jako przykład:
256-d
oznacza, że mamy pojedynczą wejściową mapę obiektów z wymiaremn x n x 256
. Na1x1, 64
rysunku oznacza64
filtry , każdy ma1x1
i ma256
kanały (1x1x256
).1x1x256
) z wejściową mapą funkcji (n x n x 256
) daje namn x n
dane wyjściowe.64
filtry, dlatego układając dane wyjściowe, wymiar mapy obiektów wyjściowych wynosin x n x 64
.Edytowane:
źródło