Jaka jest różnica między „ekwiwariantem do tłumaczenia” a „niezmiennikiem do tłumaczenia”

38

Mam problem ze zrozumieniem różnicy między ekwiwariantem a tłumaczeniem i niezmiennikiem dla tłumaczenia .

W książce Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville i Y. Bengio), można znaleźć w sieciach splotowych:

  • [...] szczególna forma udostępniania parametrów powoduje, że warstwa ma właściwość o nazwie równoważności translacji
  • [...] łączenie pomaga sprawić, że reprezentacja stanie się w przybliżeniu niezmienna dla małych tłumaczeń danych wejściowych

Czy jest między nimi jakaś różnica lub czy terminy są używane zamiennie?

Aamir
źródło
2
W dawnych czasach statystyki, jak w czasach Pitmana, niezmiennik był używany w znaczeniu ekwiwarianta.
Xi'an,

Odpowiedzi:

39

Równoważność i niezmienność są czasami używane zamiennie. Jak zauważył @ Xi'an , można znaleźć zastosowania w literaturze statystycznej, na przykład w pojęciach estymatora niezmiennego, a zwłaszcza estymatora Pitmana .

Chciałbym jednak wspomnieć, że byłoby lepiej, gdyby oba terminy były oddzielone , ponieważ przedrostek in w niezmienniku ma charakter prywatny (co oznacza w ogóle „brak wariancji”), podczas gdy equi- w equivariant odnosi się do „Różnie w podobnej lub równoważnej proporcji ”. Innymi słowy, jeden się nie rusza, drugi się rusza .

Zacznijmy od prostych funkcji obrazu i załóżmy, że obraz I ma unikalne maksymalne m przestrzennej lokalizacji pikseli (xm,ym) , która jest tutaj główną cechą klasyfikacji. Innymi słowy: obraz i wszystkie jego tłumaczenia są „takie same” . Interesująca właściwość separatorów jest ich zdolność do klasyfikacji w taki sam sposób pewne zniekształcone wersje I o I , na przykład tłumaczenia wszystkich wektorów (u,v) .

Maksymalna wartość m o I jest niezmienny : m=m : wartość jest taka sama. Chociaż jego położenie będzie wynosić (xm,ym)=(xmu,ymv) i jest równoważne , co oznacza, że zmienia się „równomiernie” wraz ze zniekształceniem .

Dokładne sformułowania podane w matematyce dla ekwiwariancji zależą od rozważanych obiektów i transformacji, dlatego wolę tutaj pojęcie najczęściej stosowane w praktyce (i mogę obwiniać z teoretycznego punktu widzenia).

Tutaj tłumaczenia (lub niektóre bardziej ogólne działania) mogą być wyposażone w strukturę grupy G , g jest jednym konkretnym operatorem tłumaczenia. Funkcja lub funkcja f jest niezmienna pod G jeśli dla wszystkich obrazów w klasie i dla dowolnego g ,

f(g(I))=f(I).

Staje equivariant jeśli istnieje inny matematyczną strukturę lub działań (często grupie) G , który odzwierciedla przemiany w G w sensowny sposób . Innymi słowy, takie, że dla każdego g masz jeden unikalny gG taki jak

f(g(I))=g(f(I)).

W powyższym przykładzie w grupie tłumaczeń g i g są takie same (a zatem G=G ): całkowite tłumaczenie obrazu odzwierciedla jako dokładnie takie samo tłumaczenie maksymalnego położenia.

Inną wspólną definicją jest:

f(g(I))=g(f(I)).

GGf(I)g(I) nie są w tej samej dziedzinie. Dzieje się tak na przykład w statystyce wielowymiarowej (patrz np. Właściwości ekwiwalencji i niezmienniczości kwantylu wielowymiarowego i funkcji pokrewnych oraz rola standaryzacji ). Ale tutaj wyjątkowość odwzorowania międzysol i sol pozwala wrócić do pierwotnej transformacji sol.

Często ludzie używają terminu niezmienniczość, ponieważ pojęcie ekwiwariancji jest nieznane, lub wszyscy inni używają niezmienniczości, a ekwiwariancja wydaje się bardziej pedantyczna.

Dla przypomnienia, inne powiązane pojęcia (szczególnie w matematyce i fizyce) są nazywane kowariancją , kontrawariancją , niezmienniczością różnicową .

Ponadto niezmienność translacji, przynajmniej w przybliżeniu lub w kopercie, była poszukiwaniem kilku narzędzi do przetwarzania sygnałów i obrazów. W szczególności w ciągu ostatnich 25 lat projektowano transformacje wieloprocesorowe (banki filtrów) i wieloskalowe (falki lub piramidy), na przykład pod maską niezmiennego przesunięcia, wirowania cyklicznego, stacjonarnego, złożonego, podwójnego drzewa transformaty falkowe (dla przeglądu falek 2D, Panorama na wieloskalowych reprezentacjach geometrycznych ). Falki mogą absorbować kilka dyskretnych zmian skali. Wszystkie tezy (przybliżone) niezmienności często wiążą się z ceną redundancji w liczbie przekształconych współczynników. Ale bardziej prawdopodobne jest, że uzyskają cechy niezmienne zmiany lub ekwiwariant zmiany.

Laurent Duval
źródło
4
Świetny! Naprawdę podziwiam twój wysiłek dla szczegółowej odpowiedzi @Laurent Duval
Aamir
24

Warunki są różne:

  • Równoważny z tłumaczeniem oznacza, że ​​tłumaczenie cech wejściowych skutkuje równoważnym tłumaczeniem wyników. Więc jeśli twój wzorzec 0,3,2,0,0 na wejściu daje 0,1,0,0 na wyjściu, to wzorzec 0,0,3,2,0 może prowadzić do 0,0,1, 0

  • Niezmienny dla tłumaczenia oznacza, że ​​tłumaczenie funkcji wprowadzania danych wcale nie zmienia wyników. Więc jeśli twój wzorzec 0,3,2,0,0 na wejściu daje 0,1,0 na wyjściu, to wzorzec 0,0,3,2,0 również doprowadziłby do 0,1,0

Aby mapy obiektów w sieciach splotowych były użyteczne, zwykle potrzebują one obu właściwości w pewnej równowadze. Równoważność pozwala sieci na uogólnienie wykrywania krawędzi, tekstury i kształtu w różnych lokalizacjach. Niezmienność pozwala, aby dokładna lokalizacja wykrytych funkcji miała mniejsze znaczenie. Są to dwa uzupełniające się typy uogólnienia dla wielu zadań przetwarzania obrazu.

Neil Slater
źródło
Przetłumaczona funkcja daje przetłumaczone wyjście na pewnej warstwie. Proszę wyjaśnić, że wykryto znacznie przetłumaczony cały obiekt. Wydaje się, że zostanie wykryty, nawet jeśli CNN nie był szkolony z obrazami zawierającymi różne pozycje? Czy w tym przypadku obowiązuje równoważność (wygląda bardziej podobnie do niezmienniczości)?
VladimirLenin
@VladimirLenin: Nie sądzę, że opracowanie tego pytania jest wymagane, zdecydowanie nie jest to kwestia, o którą OP tutaj zadał. Proponuję zadać osobne pytanie, w miarę możliwości z konkretnym przykładem. Nawet jeśli wizualnie przetłumaczono „cały obiekt”, nie oznacza to, że mapy obiektów w CNN śledzą to, czego oczekujesz.
Neil Slater,
4

Właśnie dodając moje 2 centy

W odniesieniu do zadania klasyfikacji obrazu rozwiązanego za pomocą typowej architektury CNN składającej się z backendu (Convolutions + NL + ewentualnie Spatial Pooling), który wykonuje uczenie się reprezentacji oraz frontendu (np. W pełni połączone warstwy, MLP), który rozwiązuje określone zadanie, w tym przypadku obraz klasyfikacja, celem jest zbudowanie funkcji fa:jaL. w stanie mapować z domeny przestrzennej ja (Input Image) do domeny semantycznej L. (Zestaw etykiet) w 2-etapowym procesie, który jest

  • Backend (nauka reprezentacji): fa:jaL. mapuje dane wejściowe do ukrytej przestrzeni semantycznej
  • Frontend (Solver specyficzny dla zadania): fa:L.L. mapy od Utajonej przestrzeni semantycznej do ostatecznej przestrzeni etykiety

i jest to wykonywane przy użyciu następujących właściwości

  • równoważność przestrzenna, dotycząca ConvLayer (Spatial 2D Convolution + NonLin np. ReLU) jako przesunięcie wejścia warstwy powoduje przesunięcie wyjścia warstwy (uwaga: chodzi o warstwę, a nie o pojedynczy operator konwolucji)
  • niezmienność przestrzenna w odniesieniu do operatora puli (np. Max Pooling przekracza wartość maksymalną w polu odbiorczym niezależnie od jego pozycji przestrzennej)

Im bliżej warstwy wejściowej, tym bliżej do dziedziny czysto przestrzennej ja a tym ważniejsza jest właściwość równoważności przestrzennej, która pozwala budować przestrzennie równoważną hierarchiczną (coraz bardziej) reprezentację semantyczną

Im bliżej frontendu, tym bliżej ukrytej, czysto semantycznej domeny L. a tym ważniejsze, że niezmienność przestrzenna, ponieważ specyficzne znaczenie obrazu ma być niezależne od przestrzennych pozycji cech

Zastosowanie w pełni połączonych warstw w interfejsie powoduje, że klasyfikator jest wrażliwy na pozycję elementu w pewnym stopniu, w zależności od struktury backendu: im jest on głębszy i tym bardziej używany jest operator niezmiennika tłumaczenia (Pooling)

W Kwantyfikacji niezmienności translacji w sieciach neuronowych splotowych wykazano, że w celu ulepszenia niezmienności translacji klasyfikatora CNN, zamiast działać na zasadzie indukcji (architektura, stąd głębokość, łączenie, ...), bardziej efektywne jest działanie na odchylenie zestawu danych (powiększanie danych) )

Nicola Bernini
źródło