Jaki jest problem przeskakiwania wymiarów w uczeniu maszynowym (występujący w splotowych sieciach neuronowych i rozpoznawaniu obrazów)? Zaglądałem na ten temat, ale dostaję tylko informacje na temat fizyki deformacji kształtu materiału. Będzie mi bardziej pomocne, jeśli ktoś wyjaśni to na przykładzie związanym z uczeniem maszynowym. Czy ktoś może mi w tym pomóc lub skierować mnie w stronę zasobów, które mogą?
O ile rozumiem, problem jest następujący: W rozpoznawaniu obrazu wejściowymi do twojej sieci mogą być piksele (skala szarości lub tylko 1 i 0 dla czerni i bieli). Jeśli chcesz np. Rozpoznać liczby odręczne, bardzo trudno jest pracować tylko z takimi wartościami, ponieważ nigdy nie wiesz, gdzie dokładnie będzie ta liczba (tj. Czarne wartości).
Czy piksel 140 jest czarny czy 142 czarny? W obu przypadkach może to być trzy. W przykładzie wiek / waga dane wejściowe są dobrze określone. Cechą 2 jest waga. Cechą 3 jest wiek. Te „wymiary” nie powinny „przeskakiwać” w zbiorze danych.
Zatem: podczas treningu na obrazie „trójki”, „samochody” lub „domy” muszą być rozpoznawane niezależnie od ich położenia na obrazie, tj. Wartości pikseli, tj. Wektora cech / wejścia, tj. Wymiarów w przeciwieństwie do wyraźnie określonych dane wejściowe, takie jak dane pacjenta.
Jak rozwiązać ten problem w rozpoznawaniu obrazów? Używasz dodatkowych sztuczek, np. Splot.
źródło
Przeczytałem poprzednie odpowiedzi i komentarz Neila Slatera do posta Emre, skopiowany ponownie poniżej, uderza w sedno. „Skakanie po wymiarach” to termin stworzony przez dr Hintona z pionierskiej nauki maszynowej w kontekście punktu widzenia. Cytując dr Hintona: „Zazwyczaj wyobrażaj sobie, że wymiary wejściowe odpowiadają pikselom, a jeśli obiekt porusza się po świecie, a ty nie poruszasz oczami, aby za nim podążać, informacje o obiekcie pojawią się na różnych pikselach”. Wiek i waga to wymiary wejściowe, których nie można łatwo pomylić. Dr Hinton użył tej oczywiście NIE prawdopodobnej przeskakiwania wymiarów wieku i wagi pacjentów, aby na pewno bylibyśmy w stanie wykryć i naprawić wszelkie błędy między tymi typami danych (trudno nie zauważyć, że większość dorosłych ma mniej niż 100 lat i więcej niż 100 funtów). Prawdopodobny problem przeskakiwania wymiarów, którym zajmował się dr Hinton, polega na tym, że piksele można przesunąć, ponieważ mamy inny punkt widzenia (np. Obiekt mógł się poruszyć lub patrzymy na niego pod innym kątem). Liniowe sieci neuronowe nie byłyby w stanie tego wykryć, podczas gdy splotowe sieci neuronowe z założenia byłyby.
„Przykład wieku ma wyróżnić zestaw danych, który nie ma przeskakiwania wymiarów. Wiek i waga nie„ przeskakują ”ani nie zamieniają wartości losowo między przykładami - nie można ich zamieniać, a przykład pokazuje, jak dziwne byłoby to (i jak trudno byłoby wykonać proste zadania, takie jak regresja liniowa. Wartości pikseli w obrazach (i podobnych danych w wielu zadaniach przetwarzania sygnałów) łatwo się zmieniają lub przemieszczają ze względu na naturę problemu - Neil Slater, 29 maja o 18:01 „
źródło
Wyjaśnienie prosto z kursu Hintona na temat sieci neuronowych do uczenia maszynowego ....
„Przeskakiwanie wymiarów ma miejsce, gdy można wziąć informacje zawarte w wymiarach niektórych danych wejściowych i przenosić je między wymiarami bez zmiany celu . Przykładem kanonicznym jest wzięcie obraz odręcznej cyfry i tłumaczenie jej na obrazie. Wymiary zawierające „atrament” są teraz inne (zostały przeniesione do innych wymiarów), jednak etykieta, którą przypisujemy cyfrze, nie uległa zmianie. Pamiętaj, że to nie jest coś dzieje się to konsekwentnie w całym zbiorze danych, tzn. możemy mieć zbiór danych zawierający dwie odręczne cyfry, z których jedna jest przetłumaczoną wersją drugiego, jednak nadal nie zmienia to odpowiedniej etykiety cyfr ”.
źródło
Nadzieja dotyczy tylko problemów z częścią obrazu lub pikselami poruszającymi się w obrębie wymiaru (głównie), a czasem w innym przyciemnionym (innym polu odbiorczym), ale dane wyjściowe pozostają takie same.
Ten problem dotyczy niezmienności lub równoważności i wygląda na to, że przykład wagi i wieku jest łatwym sposobem stwierdzenia. Załóżmy, że jeśli zdajemy sobie sprawę z tego wzrostu wagi i wieku, z łatwością dokonalibyśmy zmian w algo i uzyskali właściwy wynik. Ale podobnie jak przeskakiwanie do danych / informacji, przeskakiwanie obrazu również ma miejsce, jeśli weźmiemy pod uwagę „4”, a „4” przesunęło się o kilka pikseli w lewo, aby były różnymi klasami o różnych celach.
Dzięki niezmienniczości translacji lub lepszemu filtrowi równoważności poprzez ten ruch lub przeskok nie stanowi większego problemu, choć zwiększa złożoność i kosztem wyrzucania informacji, takich jak lokalizacja.
Proszę, daj mi znać, jeśli potrzebujesz więcej jasności, postaram się.
źródło