Pomysł zastosowania filtrów w celu zidentyfikowania krawędzi jest całkiem fajnym pomysłem.
Na przykład możesz zrobić zdjęcie 7. Z niektórymi filtrami możesz uzyskać przekształcone obrazy, które podkreślają różne cechy oryginalnego obrazu. Oryginalny 7:
może być postrzegany przez sieć jako:
Zauważ, jak każdy obraz wyodrębnił inną krawędź oryginału 7.
To wszystko świetnie, ale powiedzmy, że następna warstwa w sieci to warstwa Max Pooling.
Moje pytanie brzmi ogólnie: czy to nie wydaje się trochę przesadzone? Po prostu byliśmy bardzo ostrożni i celowi w identyfikowaniu krawędzi za pomocą filtrów - teraz już nas to nie obchodzi, ponieważ do diabła wybiliśmy wartości pikseli! Popraw mnie, jeśli się mylę, ale zmieniliśmy z 25 X 25 na 2 X 2! Dlaczego więc nie pójść prosto do Maxa Poolinga, czy nie skończymy z tym samym?
Jako rozszerzenie mojego pytania nie mogę przestać się zastanawiać, co by się stało, gdyby przypadkiem każdy z 4 kwadratów miał piksel o tej samej wartości maksymalnej. Z pewnością nie jest to rzadki przypadek, prawda? Nagle wszystkie obrazy treningowe wyglądają dokładnie tak samo.
źródło
The pooling operation provides a form of translation invariance
?Konwolucja polega zasadniczo na filtrowaniu obrazu za pomocą mniejszego filtra pikseli, aby zmniejszyć rozmiar obrazu bez utraty relacji między pikselami (parametry sieci). Pula danych zmniejsza również rozmiar przestrzenny poprzez wyodrębnienie maks., Średniej lub sumy pikseli do rozmiaru filtru może jednak pomijać ważny parametr w procesie, który splot osiąga ponownie, nie zmniejszając znacząco wielkości.
źródło