Mam problem ze zrozumieniem różnicy między ekwiwariantem a tłumaczeniem i niezmiennikiem dla tłumaczenia .
W książce Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville i Y. Bengio), można znaleźć w sieciach splotowych:
- [...] szczególna forma udostępniania parametrów powoduje, że warstwa ma właściwość o nazwie równoważności translacji
- [...] łączenie pomaga sprawić, że reprezentacja stanie się w przybliżeniu niezmienna dla małych tłumaczeń danych wejściowych
Czy jest między nimi jakaś różnica lub czy terminy są używane zamiennie?
Odpowiedzi:
Równoważność i niezmienność są czasami używane zamiennie. Jak zauważył @ Xi'an , można znaleźć zastosowania w literaturze statystycznej, na przykład w pojęciach estymatora niezmiennego, a zwłaszcza estymatora Pitmana .
Chciałbym jednak wspomnieć, że byłoby lepiej, gdyby oba terminy były oddzielone , ponieważ przedrostek „ in ” w niezmienniku ma charakter prywatny (co oznacza w ogóle „brak wariancji”), podczas gdy „ equi- ” w equivariant odnosi się do „Różnie w podobnej lub równoważnej proporcji ”. Innymi słowy, jeden się nie rusza, drugi się rusza .
Zacznijmy od prostych funkcji obrazu i załóżmy, że obrazI ma unikalne maksymalne m przestrzennej lokalizacji pikseli (xm,ym) , która jest tutaj główną cechą klasyfikacji. Innymi słowy: obraz i wszystkie jego tłumaczenia są „takie same” . Interesująca właściwość separatorów jest ich zdolność do klasyfikacji w taki sam sposób pewne zniekształcone wersje I′ o I , na przykład tłumaczenia wszystkich wektorów (u,v) .
Maksymalna wartośćm′ o I′ jest niezmienny : m′=m : wartość jest taka sama. Chociaż jego położenie będzie wynosić (x′m,y′m)=(xm−u,ym−v) i jest równoważne , co oznacza, że zmienia się „równomiernie” wraz ze zniekształceniem .
Dokładne sformułowania podane w matematyce dla ekwiwariancji zależą od rozważanych obiektów i transformacji, dlatego wolę tutaj pojęcie najczęściej stosowane w praktyce (i mogę obwiniać z teoretycznego punktu widzenia).
Tutaj tłumaczenia (lub niektóre bardziej ogólne działania) mogą być wyposażone w strukturę grupyG , g jest jednym konkretnym operatorem tłumaczenia. Funkcja lub funkcja f jest niezmienna pod G jeśli dla wszystkich obrazów w klasie i dla dowolnego g ,
f(g(I))=f(I).
Staje equivariant jeśli istnieje inny matematyczną strukturę lub działań (często grupie)G′ , który odzwierciedla przemiany w G w sensowny sposób . Innymi słowy, takie, że dla każdego g masz jeden unikalny g′∈G′ taki jak
W powyższym przykładzie w grupie tłumaczeńg i g′ są takie same (a zatem G′=G ): całkowite tłumaczenie obrazu odzwierciedla jako dokładnie takie samo tłumaczenie maksymalnego położenia.
Inną wspólną definicją jest:
Często ludzie używają terminu niezmienniczość, ponieważ pojęcie ekwiwariancji jest nieznane, lub wszyscy inni używają niezmienniczości, a ekwiwariancja wydaje się bardziej pedantyczna.
Dla przypomnienia, inne powiązane pojęcia (szczególnie w matematyce i fizyce) są nazywane kowariancją , kontrawariancją , niezmienniczością różnicową .
Ponadto niezmienność translacji, przynajmniej w przybliżeniu lub w kopercie, była poszukiwaniem kilku narzędzi do przetwarzania sygnałów i obrazów. W szczególności w ciągu ostatnich 25 lat projektowano transformacje wieloprocesorowe (banki filtrów) i wieloskalowe (falki lub piramidy), na przykład pod maską niezmiennego przesunięcia, wirowania cyklicznego, stacjonarnego, złożonego, podwójnego drzewa transformaty falkowe (dla przeglądu falek 2D, Panorama na wieloskalowych reprezentacjach geometrycznych ). Falki mogą absorbować kilka dyskretnych zmian skali. Wszystkie tezy (przybliżone) niezmienności często wiążą się z ceną redundancji w liczbie przekształconych współczynników. Ale bardziej prawdopodobne jest, że uzyskają cechy niezmienne zmiany lub ekwiwariant zmiany.
źródło
Warunki są różne:
Równoważny z tłumaczeniem oznacza, że tłumaczenie cech wejściowych skutkuje równoważnym tłumaczeniem wyników. Więc jeśli twój wzorzec 0,3,2,0,0 na wejściu daje 0,1,0,0 na wyjściu, to wzorzec 0,0,3,2,0 może prowadzić do 0,0,1, 0
Niezmienny dla tłumaczenia oznacza, że tłumaczenie funkcji wprowadzania danych wcale nie zmienia wyników. Więc jeśli twój wzorzec 0,3,2,0,0 na wejściu daje 0,1,0 na wyjściu, to wzorzec 0,0,3,2,0 również doprowadziłby do 0,1,0
Aby mapy obiektów w sieciach splotowych były użyteczne, zwykle potrzebują one obu właściwości w pewnej równowadze. Równoważność pozwala sieci na uogólnienie wykrywania krawędzi, tekstury i kształtu w różnych lokalizacjach. Niezmienność pozwala, aby dokładna lokalizacja wykrytych funkcji miała mniejsze znaczenie. Są to dwa uzupełniające się typy uogólnienia dla wielu zadań przetwarzania obrazu.
źródło
Właśnie dodając moje 2 centy
W odniesieniu do zadania klasyfikacji obrazu rozwiązanego za pomocą typowej architektury CNN składającej się z backendu (Convolutions + NL + ewentualnie Spatial Pooling), który wykonuje uczenie się reprezentacji oraz frontendu (np. W pełni połączone warstwy, MLP), który rozwiązuje określone zadanie, w tym przypadku obraz klasyfikacja, celem jest zbudowanie funkcjifa: I→ L. w stanie mapować z domeny przestrzennej ja (Input Image) do domeny semantycznej L. (Zestaw etykiet) w 2-etapowym procesie, który jest
i jest to wykonywane przy użyciu następujących właściwości
Im bliżej warstwy wejściowej, tym bliżej do dziedziny czysto przestrzennejja a tym ważniejsza jest właściwość równoważności przestrzennej, która pozwala budować przestrzennie równoważną hierarchiczną (coraz bardziej) reprezentację semantyczną
Im bliżej frontendu, tym bliżej ukrytej, czysto semantycznej domenyL. a tym ważniejsze, że niezmienność przestrzenna, ponieważ specyficzne znaczenie obrazu ma być niezależne od przestrzennych pozycji cech
Zastosowanie w pełni połączonych warstw w interfejsie powoduje, że klasyfikator jest wrażliwy na pozycję elementu w pewnym stopniu, w zależności od struktury backendu: im jest on głębszy i tym bardziej używany jest operator niezmiennika tłumaczenia (Pooling)
W Kwantyfikacji niezmienności translacji w sieciach neuronowych splotowych wykazano, że w celu ulepszenia niezmienności translacji klasyfikatora CNN, zamiast działać na zasadzie indukcji (architektura, stąd głębokość, łączenie, ...), bardziej efektywne jest działanie na odchylenie zestawu danych (powiększanie danych) )
źródło