Podczas szkolenia sieci neuronowych istnieją co najmniej 4 sposoby uregulowania sieci:
plus oczywiście inne rzeczy, takie jak dzielenie ciężaru i zmniejszanie liczby połączeń, co może nie być regularyzacją w ścisłym tego słowa znaczeniu.
Ale jak wybrać jedną z tych metod regularyzacji? Czy istnieje bardziej zasadowy sposób niż „po prostu spróbuj wszystkiego i zobacz, co działa”?
neural-network
regularization
Thomas Johnson
źródło
źródło
Odpowiedzi:
Nie ma żadnych silnych, dobrze udokumentowanych zasad, które pomogłyby ci wybrać między rodzajami regularyzacji w sieciach neuronowych. Możesz nawet łączyć techniki regularyzacji, nie musisz wybierać tylko jednej.
Wykonalne podejście może opierać się na doświadczeniu oraz śledzeniu literatury i wyników innych osób, aby zobaczyć, co dało dobre wyniki w różnych obszarach problemowych. Biorąc to pod uwagę, rezygnacja okazała się bardzo skuteczna w przypadku szerokiego zakresu problemów i prawdopodobnie możesz uznać ją za dobry pierwszy wybór prawie niezależnie od tego, co próbujesz.
Czasami może również pomóc wybranie znanej Ci opcji - praca z technikami, które znasz i masz doświadczenie, może dać lepsze wyniki niż wypróbowanie całej torby różnych opcji, w których nie jesteś pewien, jaki rząd wielkości wypróbować dla parametru . Kluczową kwestią jest to, że techniki mogą współdziałać z innymi parametrami sieci - na przykład możesz chcieć zwiększyć rozmiar warstw z rezygnacją w zależności od procentu rezygnacji.
Wreszcie, może nie mieć większego znaczenia, z jakich technik regularyzacji korzystasz, tylko to, że rozumiesz swój problem i model wystarczająco dobrze, aby wykryć, kiedy jest on zbyt dobry i może zrobić z większą regularyzacją. Lub odwrotnie, zauważ, kiedy jest on niedopasowany i powinieneś skrócić regularyzację.
źródło
Metoda regularyzacji
W przypadku następujących 4 technik, L1 Regulararyzacja i L2 Regulararyzacja nie muszą mówić, że muszą być metodą regularyzacji. Zmniejszają wagę. L1 skoncentrowałby się na zmniejszeniu mniejszej masy, jeśli ciężary mają większe znaczenie.
Porzucenie zapobiega przeuczeniu przez tymczasowe porzucenie neuronów. Ostatecznie oblicza wszystkie masy jako średnią, aby waga nie była zbyt duża dla konkretnego neuronu, a zatem jest to metoda regularyzacji.
Normalizacja partii nie powinna być metodą regularyzacji, ponieważ jej głównym celem jest przyspieszenie treningu poprzez wybranie partii i wymuszenie rozłożenia ciężaru w pobliżu 0, niezbyt dużej, nie za małej.
Wybierając to
Dla mnie mini-partia jest koniecznością, ponieważ może przyspieszyć proces i poprawić wydajność sieci za każdym razem.
L1 i L2 są podobne i wolałbym L1 w małej sieci.
Najlepiej byłoby zrezygnować, jeśli występuje duży problem zmienności lub nadmiernego dopasowania.
Wreszcie, zgadzam się z Neilem Slaterem, że zależy to od sytuacji i nigdy nie będzie optymalnego rozwiązania.
Zalecam przeczytanie tego w celu uzyskania dalszych informacji. To bardzo dobry materiał. http://neuralnetworksanddeeplearning.com/chap3.html
źródło
Spójrz na te algorytmy jako dodatkowe hiperparametry i zoptymalizuj je w taki sam sposób, jak w przypadku innych hiperparametrów. Zazwyczaj wymaga to jednak więcej danych.
źródło