Geoffrey Hinton bada coś, co nazywa „teorią kapsułek” w sieciach neuronowych. Co to jest i jak to działa?
neural-networks
rcpinto
źródło
źródło
Odpowiedzi:
Wydaje się, że nie został jeszcze opublikowany; najlepsze dostępne online to slajdy do tej rozmowy . (Kilka osób wspomina wcześniejszą rozmowę z tym linkiem , ale niestety jest zepsuta w momencie pisania tej odpowiedzi).
Mam wrażenie, że jest to próba sformalizowania i wyodrębnienia tworzenia podsieci wewnątrz sieci neuronowej. To znaczy, jeśli spojrzysz na standardową sieć neuronową, warstwy są w pełni połączone (to znaczy, każdy neuron w warstwie 1 ma dostęp do każdego neuronu w warstwie 0 i jest dostępny dla każdego neuronu w warstwie 2). Ale to oczywiście nie jest przydatne; zamiast tego można mieć, powiedzmy, n równoległych stosów warstw („kapsułek”), z których każda specjalizuje się w jakimś osobnym zadaniu (które może wymagać więcej niż jednej warstwy do pomyślnego ukończenia).
Jeśli dobrze wyobrażam sobie jego wyniki, ta bardziej wyrafinowana topologia grafów wydaje się czymś, co może z łatwością zwiększyć zarówno skuteczność, jak i interpretowalność wynikowej sieci.
źródło
Aby uzupełnić poprzednią odpowiedź: jest artykuł na ten temat, który głównie dotyczy nauki kapsułek niskiego poziomu na podstawie surowych danych, ale wyjaśnia koncepcję kapsułki Hintona w części wprowadzającej: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf
Warto również zauważyć, że link do rozmowy MIT w powyższej odpowiedzi wydaje się znowu działać.
Według Hintona „kapsuła” to podzbiór neuronów w warstwie, który wyprowadza zarówno „parametr tworzenia” wskazujący, czy istota jest obecna w ograniczonej domenie, jak i wektor „parametrów pozy” określający pozę istoty względem wersja kanoniczna.
Parametry wyprowadzane przez kapsułki niskiego poziomu są przekształcane w prognozy dla pozy bytów reprezentowanych przez kapsułki wyższego poziomu, które są aktywowane, jeśli przewidywania się zgadzają i dają własne parametry (parametry pozy wyższego poziomu są średnimi z otrzymanych prognoz ).
Hinton spekuluje, że właśnie do tego celu służy wykrywanie koincydencji w dużym wymiarze. Jego głównym celem wydaje się być zastąpienie maksymalnej puli stosowanej w sieciach splotowych, w których głębsze warstwy tracą informacje o pozie.
źródło
Sieci kapsułek starają się naśladować obserwacje Hintona dotyczące ludzkiego mózgu na maszynie. Motywacja wynika z faktu, że sieci neuronowe wymagały lepszego modelowania relacji przestrzennych części. Zamiast modelować koegzystencję, pomijając względne pozycjonowanie, sieci kapsułowe próbują modelować globalne względne transformacje różnych podzespołów wzdłuż hierarchii. Jest to kompromis między równoważnością a niezmiennością, jak wyjaśniono powyżej przez innych.
Sieci te obejmują zatem nieco punkt widzenia / orientację i reagują w różny sposób na różne orientacje. Ta właściwość czyni je bardziej dyskryminującymi, potencjalnie wprowadzając możliwość wykonywania oszacowania pozycji, ponieważ funkcje w przestrzeni utajonej zawierają interpretowalne, szczegółowe informacje o pozie.
Wszystko to osiąga się poprzez włączenie do warstwy zagnieżdżonej warstwy zwanej kapsułkami, zamiast łączenia kolejnej warstwy w sieci. Kapsułki te mogą zapewniać wyjście wektorowe zamiast skalarnego jednego na węzeł.
Kluczowym wkładem tego artykułu jest dynamiczny routing, który zastępuje standardowe maksymalne buforowanie inteligentną strategią. Ten algorytm stosuje klastrowanie z przesunięciem średnim na wyjściach kapsułek, aby zapewnić, że dane wyjściowe zostaną wysłane tylko do odpowiedniego rodzica w powyższej warstwie.
Autorzy łączą również wkład z utratą marginesu i utratą rekonstrukcji, które jednocześnie pomagają w lepszym uczeniu się zadania i pokazują najnowsze wyniki MNIST.
Ostatni artykuł nosi nazwę Dynamic Routing Between Capsules i jest dostępny na stronie Arxiv: https://arxiv.org/pdf/1710.09829.pdf .
źródło
Na podstawie ich artykułu Dynamic Routing Between Capsules
źródło
Jedną z głównych zalet splotowych sieci neuronowych jest ich niezmienność w tłumaczeniu. Jednak ta niezmienność ma swoją cenę, to znaczy nie bierze pod uwagę, w jaki sposób różne funkcje są ze sobą powiązane. Na przykład, jeśli mamy zdjęcie twarzy, CNN będzie miał trudności z rozróżnieniem związku między rysami ust a rysami nosa. Maksymalne warstwy puli są głównym powodem tego efektu. Ponieważ kiedy używamy maksymalnych warstw pulowania, tracimy dokładne umiejscowienie ust i hałas i nie jesteśmy w stanie powiedzieć, w jaki sposób są one ze sobą powiązane.
Kapsułki starają się zachować przewagę CNN i naprawić tę wadę na dwa sposoby;
Innymi słowy, kapsułka uwzględnia istnienie konkretnej cechy, której szukamy, takiej jak usta lub nos. Ta właściwość zapewnia, że kapsułki są niezmiennie translacyjne tak samo jak CNN.
źródło