Wyobraź sobie, że 100 razy pokazujesz sieci neuronowej zdjęcie lwa i oznaczysz je słowem „niebezpieczne”, dzięki czemu dowiadujesz się, że lwy są niebezpieczne.
Teraz wyobraź sobie, że wcześniej pokazałeś mu miliony zdjęć lwów i alternatywnie oznaczyłeś je jako „niebezpieczne” i „nie niebezpieczne”, tak że prawdopodobieństwo, że lew będzie niebezpieczny, wynosi 50%.
Ale te ostatnie 100 razy sprawiły, że sieć neuronowa bardzo pozytywnie oceniła lwa jako „niebezpiecznego”, ignorując w ten sposób ostatni milion lekcji.
Dlatego wydaje się, że istnieje wada w sieciach neuronowych, polegająca na tym, że mogą zbyt szybko zmienić zdanie w oparciu o najnowsze dowody. Zwłaszcza jeśli poprzednie dowody były w środku.
Czy istnieje model sieci neuronowej, który śledzi, ile dowodów widział? (Czy byłoby to równoznaczne z obniżeniem współczynnika uczenia się o gdzie jest liczbą prób?)
Odpowiedzi:
Tak, w rzeczywistości sieci neuronowe są bardzo podatne na katastrofalne zapominanie (lub interferencję) . Obecnie problem ten jest często ignorowany, ponieważ sieci neuronowe są głównie szkolone offline (czasem nazywane treningiem wsadowym ), gdzie problem ten nie pojawia się często, a nie online lub narastająco , co ma zasadnicze znaczenie dla rozwoju sztucznej inteligencji ogólnej .
Istnieją osoby, które pracują nad ciągłym uczeniem się przez całe życie w sieciach neuronowych, które próbują dostosować sieci neuronowe do ciągłego uczenia się przez całe życie, czyli zdolność modelu do ciągłego uczenia się na podstawie strumienia danych, tak aby nie zapomniały całkowicie wcześniej zdobytych wiedza podczas uczenia się nowych informacji. Zobacz na przykład artykuł Ciągłe uczenie się przez całe życie z sieciami neuronowymi: recenzja (2019), autorstwa niemieckiego I. Parisi, Ronalda Kemkera, Jose L. Parta, Christophera Kanana, Stefana Wermtera, który podsumowuje problemy i istniejące rozwiązania związane z katastrofą zapominanie o sieciach neuronowych.
źródło
Tak, problem zapominania o starszych przykładach treningowych jest charakterystyczny dla sieci neuronowych. Nie nazwałbym tego jednak „wadą”, ponieważ pomaga im to być bardziej adaptacyjnym i pozwala na ciekawe zastosowania, takie jak uczenie się transferu (jeśli sieć zbyt dobrze zapamiętała stare szkolenie, dokładne dostrojenie go do nowych danych byłoby bez znaczenia).
W praktyce to, co chcesz zrobić, to mieszać przykłady treningu dla niebezpiecznego i nie niebezpiecznego, aby nie widział jednej kategorii na początku i jednej na końcu.
Standardowa procedura treningowa działałaby w następujący sposób:
Pamiętaj, że losowanie w każdej epoce gwarantuje, że sieć nie zobaczy tych samych przykładów szkolenia w tej samej kolejności w każdej epoce i że klasy będą mieszane
Teraz, aby odpowiedzieć na twoje pytanie, tak, obniżenie współczynnika uczenia się sprawiłoby, że sieć byłaby mniej podatna na zapominanie o poprzednim szkoleniu, ale jak miałoby to działać w trybie innym niż online? Aby sieć się zbiegła, potrzebuje wielu epok szkolenia (tj. Wielokrotnego oglądania każdej próbki w zbiorze danych).
źródło
To, co opisujesz, może brzmieć jako celowy dostrojenie .
Istnieje fundamentalne założenie, które sprawia, że opadanie gradientu minibatch działa na problemy uczenia się: Zakłada się, że każda partia lub okno czasowe kolejnych partii tworzy przyzwoite przybliżenie prawdziwego globalnegogradient funkcji błędu w odniesieniu do dowolnej parametryzacji modelu. Jeśli sama powierzchnia błędu porusza się w dużym stopniu, udaremniłoby to cel opadania gradientu - ponieważ opadanie gradientu jest lokalnym algorytmem udoskonalania, wszystkie zakłady są wyłączone, gdy nagle zmienisz podstawowy rozkład. W przytoczonym przykładzie katastroficzne zapominanie wydaje się być następstwem „zapomnienia” punktów danych, które wcześniej widzieliśmy, i jest albo objawem zmiany rozkładu, albo niedostateczną reprezentacją danych niektórych ważnych zjawisk , tak, że rzadko spotyka się go ze względu na jego znaczenie.
Powtórka z uczenia się przez wzmocnienie jest istotną koncepcją, która dobrze przenosi się do tej dziedziny. Oto artykuł analizujący tę koncepcję w odniesieniu do katastrofalnego zapominania. Tak długo, jak próbkowanie reprezentuje prawdziwe gradienty wystarczająco dobrze (spójrz na równoważenie próbki treningowej w tym celu), a model ma wystarczającą liczbę parametrów, problem katastroficznego zapominania jest mało prawdopodobny. W losowo przetasowanych zestawach danych z zamiennikiem najbardziej prawdopodobne jest, że punkty danych danej klasy są tak rzadkie, że prawdopodobnie nie zostaną uwzględnione przez długi czas podczas treningu, skutecznie dostosowując model do innego problemu, aż do dopasowania próbki widać ponownie.
źródło
Aby odpowiedzieć na twoje pytanie, powiedziałbym: może w teorii, ale nie w praktyce.
Problem polega na tym, że rozważasz tylko trening chronologiczny / sekwencyjny.
Tylko raz użyłem takiej sekwencyjnej metody treningowej, która nazywa się treningiem online lub Online Machine Learning . To korzystało z biblioteki Wabpal Wabbit . Jest to funkcja tej biblioteki (a nie kwestia, którą rozważasz) chronologicznie dostosowująca się do danych wejściowych, którymi jest zasilana.
I nalegać : w przypadku tej biblioteki Woppal Wabbit, jest to cecha dostosować chronologicznie. Chodzi o to, że kiedy zaczniesz mówić mu tylko, że lwy są niebezpieczne, to odpowiednio się dostosowuje.
Ale we wszystkich innych przypadkach, od ćwiczeń na kursach, po zawody w kaggle, użyłem losowego podzbioru moich danych wejściowych jako zestawu treningowego. I to jest naprawdę kluczowe :
Jest to ważna część uczenia maszynowego, która nazywa się Cross Validation . Jest to sposób na oszacowanie, jak dobrze wyszkolona sieć neuronowa jest naprawdę.
Aby dobrze oszacować ważność swojej sieci neuronowej, bierzesz losowy podzbiór danych treningowych, krótko mówiąc, bierzesz około 80% swoich danych treningowych, a pozostałe 20% ocenia, jak często wyszkolona sieć neuronowa daje dobre prognozy.
Nie można też po prostu odejść bez weryfikacji krzyżowej, ponieważ istnieje potrzeba wykrycia przeszacowania (co jest kolejnym problemem).
Może ci się to wydawać potencjalnym problemem teoretycznym, ale zwykle twierdzę, że obecne metody walidacji krzyżowej sprawiają, że obawy są nieistotne.
źródło