Próbuję więc przeprowadzić wstępne szkolenie na obrazach ludzi za pomocą sieci splotowych. Czytam gazety ( papierowe1 i Paper2 ) i ten związek stackoverflow , ale nie jestem pewien, jestem zrozumieć strukturę sieci (nie jest dobrze zdefiniowane w dokumentach).
Pytania:
Mogę mieć moje dane wejściowe, a następnie warstwę szumu, a następnie warstwę konwekcyjną, a następnie warstwę puli - czy potem - czy wyłączam pulę, zanim podam mój wynik (który jest taki sam jak mój obraz wejściowy)?
Powiedzmy, że mam kilka (135.240) zdjęć. Jeśli użyję jądra 32, (12,21), a następnie puli (2,2), skończę z 32 (62, 110) mapami funkcji. Czy teraz wyłączę pulę, aby uzyskać 32 (124, 220) mapy obiektów, a następnie spłaszczyć je? przed podaniem mojej (135,240) warstwy wyjściowej?
Jeśli mam wiele takich warstw puli konwekcyjnej, czy powinienem je trenować jeden po drugim - jak w przypadku zestawionych auto-koderów denoised? Lub - czy mogę mieć coś takiego jak input-conv-pool-conv-pool-conv-pool-output (wyjście jest takie samo jak wejście)? W takim przypadku, w jaki sposób należy zarządzać pulowaniem, usuwaniem buforów? Czy powinienem de-poolować tylko w ostatniej warstwie puli przed wyjściem? I znowu - jaki powinien być czynnik zmiany rozmiaru tego usuwania puli? Czy intencją jest przywrócenie map obiektów do kształtu danych wejściowych?
Czy powinienem wprowadzać warstwy szumu po każdej warstwie depool-depool-depool?
A potem przy dostrajaniu - mam po prostu usunąć warstwy z pulowania i pozostawić resztę bez zmian. A może powinienem usunąć zarówno warstwy szumu, jak i warstwy z puli
Czy ktokolwiek może wskazać mi adres URL, który szczegółowo opisuje architekturę takiego ustawionego enkodera splotowego, aby przeprowadzić wstępne szkolenie na obrazach?
Szukałem także w pełni wyjaśnionego modelu Stacked Convolutional Autoencoders.
Natknąłem się na trzy różne architektury. Nadal je badam i pomyślałem, że mogą one pomóc innym, którzy również zaczynają badać CAE. Wszelkie dalsze odniesienia do dokumentów lub wdrożeń byłyby bardzo pomocne.
Warstwy (splot) __ x_times -> (deconvolve) __ x_times,
i uzyskaj taki sam rozmiar jak wejście.
źródło
ASK QUESTION
u góry strony i zadaj je tam, a my pomożemy Ci właściwie. Ponieważ jesteś tutaj nowy, możesz wybrać się na naszą wycieczkę , która zawiera informacje dla nowych użytkowników.Nie sądzę, aby metoda treningu oparta na warstwach była poprawna. Na przykład architektura autokodera splotowego jest następująca:
input-> conv-> max_poo-> de_max_pool-> de_conv-> wyjście.
Jest to automatyczny koder, który należy przeszkolić w całej architekturze. Ponadto nie ma ścisłego kryterium, czy jeden autokoder splotowy potrzebuje puli i un_pool. zwykle jedna pula, ale bez un_pool. Oto eksperymentalne porównania z brakiem puli i un_pool.
https://arxiv.org/pdf/1701.04949.pdf
źródło