Jak działa „teoria kapsułek” Hintona?

35

Geoffrey Hinton bada coś, co nazywa „teorią kapsułek” w sieciach neuronowych. Co to jest i jak to działa?

rcpinto
źródło
8
Teraz ten artykuł można obejrzeć na: arxiv.org/abs/1710.09829 Dynamiczne trasowanie między kapsułkami Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton
Danke Xie
1
Istnieje pokrewne pytanie z nowszymi informacjami (listopad 2017 r.): Jaka jest główna koncepcja Capsule Networks?
mjul,

Odpowiedzi:

31

Wydaje się, że nie został jeszcze opublikowany; najlepsze dostępne online to slajdy do tej rozmowy . (Kilka osób wspomina wcześniejszą rozmowę z tym linkiem , ale niestety jest zepsuta w momencie pisania tej odpowiedzi).

Mam wrażenie, że jest to próba sformalizowania i wyodrębnienia tworzenia podsieci wewnątrz sieci neuronowej. To znaczy, jeśli spojrzysz na standardową sieć neuronową, warstwy są w pełni połączone (to znaczy, każdy neuron w warstwie 1 ma dostęp do każdego neuronu w warstwie 0 i jest dostępny dla każdego neuronu w warstwie 2). Ale to oczywiście nie jest przydatne; zamiast tego można mieć, powiedzmy, n równoległych stosów warstw („kapsułek”), z których każda specjalizuje się w jakimś osobnym zadaniu (które może wymagać więcej niż jednej warstwy do pomyślnego ukończenia).

Jeśli dobrze wyobrażam sobie jego wyniki, ta bardziej wyrafinowana topologia grafów wydaje się czymś, co może z łatwością zwiększyć zarówno skuteczność, jak i interpretowalność wynikowej sieci.

Matthew Graves
źródło
9
Papier jest teraz (październik 2017) opublikowano: arxiv.org/pdf/1710.09829.pdf
machinaut
13

Aby uzupełnić poprzednią odpowiedź: jest artykuł na ten temat, który głównie dotyczy nauki kapsułek niskiego poziomu na podstawie surowych danych, ale wyjaśnia koncepcję kapsułki Hintona w części wprowadzającej: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf

Warto również zauważyć, że link do rozmowy MIT w powyższej odpowiedzi wydaje się znowu działać.

Według Hintona „kapsuła” to podzbiór neuronów w warstwie, który wyprowadza zarówno „parametr tworzenia” wskazujący, czy istota jest obecna w ograniczonej domenie, jak i wektor „parametrów pozy” określający pozę istoty względem wersja kanoniczna.

Parametry wyprowadzane przez kapsułki niskiego poziomu są przekształcane w prognozy dla pozy bytów reprezentowanych przez kapsułki wyższego poziomu, które są aktywowane, jeśli przewidywania się zgadzają i dają własne parametry (parametry pozy wyższego poziomu są średnimi z otrzymanych prognoz ).

Hinton spekuluje, że właśnie do tego celu służy wykrywanie koincydencji w dużym wymiarze. Jego głównym celem wydaje się być zastąpienie maksymalnej puli stosowanej w sieciach splotowych, w których głębsze warstwy tracą informacje o pozie.

a.kief
źródło
4

Sieci kapsułek starają się naśladować obserwacje Hintona dotyczące ludzkiego mózgu na maszynie. Motywacja wynika z faktu, że sieci neuronowe wymagały lepszego modelowania relacji przestrzennych części. Zamiast modelować koegzystencję, pomijając względne pozycjonowanie, sieci kapsułowe próbują modelować globalne względne transformacje różnych podzespołów wzdłuż hierarchii. Jest to kompromis między równoważnością a niezmiennością, jak wyjaśniono powyżej przez innych.

Sieci te obejmują zatem nieco punkt widzenia / orientację i reagują w różny sposób na różne orientacje. Ta właściwość czyni je bardziej dyskryminującymi, potencjalnie wprowadzając możliwość wykonywania oszacowania pozycji, ponieważ funkcje w przestrzeni utajonej zawierają interpretowalne, szczegółowe informacje o pozie.

Wszystko to osiąga się poprzez włączenie do warstwy zagnieżdżonej warstwy zwanej kapsułkami, zamiast łączenia kolejnej warstwy w sieci. Kapsułki te mogą zapewniać wyjście wektorowe zamiast skalarnego jednego na węzeł.

Kluczowym wkładem tego artykułu jest dynamiczny routing, który zastępuje standardowe maksymalne buforowanie inteligentną strategią. Ten algorytm stosuje klastrowanie z przesunięciem średnim na wyjściach kapsułek, aby zapewnić, że dane wyjściowe zostaną wysłane tylko do odpowiedniego rodzica w powyższej warstwie.

Autorzy łączą również wkład z utratą marginesu i utratą rekonstrukcji, które jednocześnie pomagają w lepszym uczeniu się zadania i pokazują najnowsze wyniki MNIST.

Ostatni artykuł nosi nazwę Dynamic Routing Between Capsules i jest dostępny na stronie Arxiv: https://arxiv.org/pdf/1710.09829.pdf .

Tolga Birdal
źródło
3

Na podstawie ich artykułu Dynamic Routing Between Capsules

Kapsułka to grupa neuronów, których wektor aktywności reprezentuje parametry tworzenia określonego typu bytu, takiego jak obiekt lub część obiektu. Używamy długości wektora aktywności do reprezentowania prawdopodobieństwa istnienia istoty i jej orientacji do reprezentowania parametrów tworzenia instancji. Aktywne kapsułki na jednym poziomie przewidują, za pomocą macierzy transformacji, parametry instancji kapsułek wyższego poziomu. Kiedy wiele prognoz się zgadza, aktywna jest kapsułka wyższego poziomu. Pokazujemy, że wyszkolony, wielowarstwowy system kapsuł wyróżnia się najnowocześniejszą wydajnością na MNIST i jest znacznie lepszy niż sieć splotowa w rozpoznawaniu nakładających się cyfr. Aby osiągnąć te wyniki, stosujemy iteracyjny mechanizm routingu po uzgodnieniu: Kapsułka niższego poziomu woli wysyłać swoje wyjście do kapsułek wyższego poziomu, których wektory aktywności mają duży iloczyn skalarny z przewidywaniem pochodzącym z kapsułki niższego poziomu. Ostateczna wersja artykułu jest poddawana przeglądowi w celu uwzględnienia komentarzy recenzentów.

mwweb
źródło
2
Dobra odpowiedź jest zwykle czymś więcej niż tylko cytatem. Zazwyczaj możesz przekształcić dane w bardziej przejrzysty sposób lub głębiej. Bardzo rzadko jest to tylko cytat, który wymaga dobrej odpowiedzi. Czy uważasz, że można poprawić ten kawałek po edycji ing?
user58
3

Jedną z głównych zalet splotowych sieci neuronowych jest ich niezmienność w tłumaczeniu. Jednak ta niezmienność ma swoją cenę, to znaczy nie bierze pod uwagę, w jaki sposób różne funkcje są ze sobą powiązane. Na przykład, jeśli mamy zdjęcie twarzy, CNN będzie miał trudności z rozróżnieniem związku między rysami ust a rysami nosa. Maksymalne warstwy puli są głównym powodem tego efektu. Ponieważ kiedy używamy maksymalnych warstw pulowania, tracimy dokładne umiejscowienie ust i hałas i nie jesteśmy w stanie powiedzieć, w jaki sposób są one ze sobą powiązane.

Kapsułki starają się zachować przewagę CNN i naprawić tę wadę na dwa sposoby;

  1. Niezmienność: cytowanie z tego artykułu

Gdy kapsuła działa poprawnie, prawdopodobieństwo obecności bytu wizualnego jest lokalnie niezmienne - nie zmienia się, gdy byt porusza się nad różnorodnym możliwym wyglądem w obrębie ograniczonej domeny objętej kapsułką.

Innymi słowy, kapsułka uwzględnia istnienie konkretnej cechy, której szukamy, takiej jak usta lub nos. Ta właściwość zapewnia, że ​​kapsułki są niezmiennie translacyjne tak samo jak CNN.

  1. Równoważność: zamiast uczynić niezmienność translacji cech , kapsułka sprawi, że będzie ona równoważna translacji lub ekwiwalentna punktu widzenia. Innymi słowy, w miarę przesuwania się cechy i zmiany jej położenia na obrazie, reprezentacja wektora cech również będzie się zmieniać w ten sam sposób, co czyni ją równoważną. Ta właściwość kapsuł próbuje rozwiązać wadę maksymalnych warstw puli, o której wspomniałem na początku.
RAS
źródło