Mam architekturę sieci z artykułu „uczenie się drobnoziarnistego podobieństwa obrazu z głębokim rankingiem” i nie jestem w stanie zrozumieć, w jaki sposób dane wyjściowe z trzech równoległych sieci są łączone za pomocą liniowej warstwy osadzania. Jedyne informacje podane na tej warstwie w artykule to
Na koniec normalizujemy osadzanie z trzech części i łączymy je z liniową warstwą osadzania. Wymiar osadzania wynosi 4096.
Czy ktoś może mi pomóc w zrozumieniu, co dokładnie autor ma na myśli, gdy mówi o tej warstwie?
neural-network
deep-network
A. Sam
źródło
źródło
Odpowiedzi:
Liniowa warstwa osadzania musi być tylko fantazyjną nazwą dla gęstej warstwy bez aktywacji. „Liniowy” oznacza brak aktywacji (aktywacja to tożsamość). Osadzanie jest raczej koncepcją wektorowej reprezentacji danych wejściowych (np. Osadzanie słów). Wierzę, że elementy z drugiego wektora są po prostu dodawane do pierwszego elementu pod względem elementu.
źródło
Jest wspomniane w artykule:
Biorą każdą część modelu i normalizują go osobno.
Jeśli chodzi o łączenie ich, jak skomentowałeś, aby uchwycić najbardziej istotne cechy, przy niepełnej reprezentacji nie ma potrzeby nieliniowości.
źródło