W jaki sposób jądra są stosowane do map obiektów w celu tworzenia innych map obiektów?

44

Próbuję zrozumieć część splotową sieci neuronowych splotowych. Patrząc na następujący rysunek:

wprowadź opis zdjęcia tutaj

Nie mam problemów ze zrozumieniem pierwszej warstwy splotu, w której mamy 4 różne jądra (o wielkości ), które splatamy z obrazem wejściowym, aby uzyskać 4 mapy cech. $k \times k$

To, czego nie rozumiem, to kolejna warstwa splotu, w której przechodzimy od 4 map obiektów do 6 map obiektów. Zakładam, że mamy w tej warstwie 6 jąder (co daje 6 wyjściowych map obiektów), ale jak te jądra działają na 4 mapach obiektów pokazanych w C1? Czy jądra są trójwymiarowe, czy też są dwuwymiarowe i są replikowane na 4 wejściowych mapach cech?

machine-learning neural-networks deep-learning conv-neural-network utdiscant
źródło

1

Utknąłem w tym samym miejscu. Niestety artykuł Yanna Lecun-a także tego nie wyjaśnia - przejrzałem kilka plików pdf i filmów z ostatnich dni i wydaje się, że wszyscy pomijają tę część. Artykuł Yanna Lecuna mówi o 6–16 mapach obiektów z tabelą mapowania w warstwie 2. Pierwsza wyjściowa mapa obiektów otrzymuje dane z 0,1,2 wejściowych map obiektów. Ale ta wyjściowa mapa cech ma wymiary 10 na 10, a 3 wejściowe mapy cech mają wymiary 14 na 14. Więc jak to działało? Zrozumiałeś, co się dzieje? Czy to jądro 3D? czy jest to uśrednianie wyników z jądra lokalizacji * (splot)?

Run2

18

Jądra są trójwymiarowe, w których można wybrać szerokość i wysokość, a głębokość jest równa liczbie map w warstwie wejściowej - ogólnie.

Z pewnością nie są dwuwymiarowe i są replikowane na mapach obiektów wejściowych w tej samej lokalizacji 2D! Oznaczałoby to, że jądro nie będzie w stanie rozróżnić funkcji wejściowych w danej lokalizacji, ponieważ użyje tej samej wagi na mapach funkcji wejściowych!

Angelorf
źródło

5

Nie ma konieczności bezpośredniej korespondencji między warstwami i jądrami. To zależy od konkretnej architektury. Przedstawiony rysunek sugeruje, że na warstwach S2 masz 6 map obiektów, z których każda łączy wszystkie mapy obiektów z poprzednich warstw, tj. Różne możliwe kombinacje cech.

Bez dalszych referencji nie mogę powiedzieć nic więcej. Zobacz na przykład ten artykuł

jpmuc
źródło

Patrzę w szczególności na LeNet-5 i używam tego deeplearning.net/tutorial/lenet.html jako mojego odniesienia. Z tej strony wydaje się, że jądra są trójwymiarowe, ale nie jest to dla mnie w 100% jasne.

utdiscant

2

Musisz przeczytać ten artykuł ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). Na stronie 8 opisano sposób łączenia różnych warstw. Jak powiedziałem, warstwa każda funkcja w warstwie łączy kilka elementów z poprzedniej warstwy w tym samym miejscu.

jpmuc

2

Link jest martwy.

lipca

2

Tabela 1 i sekcja 2a „Uczenia się opartego na gradiencie zastosowanego do rozpoznawania dokumentów” Yanna LeCuna wyjaśnia to dobrze: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf Nie wszystkie regiony splotu 5x5 są służy do generowania drugiej warstwy splotowej.

Travis Desell
źródło

0

Ten artykuł może być pomocny: Zrozumienie konwolucji w głębokim uczeniu się autorstwa Tim Dettmers z 26 marca

Naprawdę nie odpowiada na pytanie, ponieważ wyjaśnia tylko pierwszą warstwę splotu, ale zawiera dobre wyjaśnienie podstawowej intuicji na temat splotu w CNN. Opisuje także głębszą matematyczną definicję splotu. Myślę, że ma to związek z tematem pytania.

Anatolij Wasiljew
źródło

1

Witamy na stronie. Staramy się zbudować stałe repozytorium wysokiej jakości informacji statystycznych w formie pytań i odpowiedzi. Dlatego też obawiamy się odpowiedzi typu „tylko link” z powodu linkrot. Czy możesz zamieścić pełny cytat i streszczenie informacji pod linkiem, na wypadek gdyby nie działał?

Gung - Przywróć Monikę

@gung, dziękuję za powiadomienie, przepraszam za niezrozumienie pojęć. Sytuacja jest taka: ten artykuł tak naprawdę nie odpowiada na pytanie, ale kiedy szukałem podstawowej intuicji na temat CNN, znalazłem to pytanie i miałem nadzieję pomóc w tym artykule komuś, kto również szuka podstawowej intuicji i dostał to pytanie. Ok, lepiej go usunąć, tak? Dziękuję Ci.

Anatolij Wasiljew

Myślę, że dobrze byłoby powiedzieć: „ten artykuł może służyć jako myśl do przemyślenia, ale nie do końca odpowiada na pytanie” lub coś w tym rodzaju. Może tu być wartość. Wystarczy podać pełne cytowanie i podsumowanie zawartych informacji, na wypadek gdyby link utracił ważność.

gung - Przywróć Monikę

Dzięki za dodatkowe informacje. Czy możesz podać pełne cytowanie artykułu (autora, roku, tytułu, czasopisma itp.) Oraz streszczenie jego treści?

Gung - Przywróć Monikę

@ gung tak, oczywiście. Ale wygląda na to, że ten artykuł jest tylko na tym blogu, więc nie mogłem znaleźć żadnych innych przydatnych informacji na jego temat. Dziękuję za wyjaśnienie mojego poglądu

Anatolij Wasiljew

W jaki sposób jądra są stosowane do map obiektów w celu tworzenia innych map obiektów?

Odpowiedzi: