Ilekroć stosuje się regularyzację, jest ona często dodawana do funkcji kosztu, na przykład w poniższej funkcji kosztu. Ma to dla mnie intuicyjny sens, ponieważ minimalizuję funkcja kosztu oznacza minimalizację błędu (lewy element) i minimalizację wielkości współczynników (prawy element) w tym samym czasie (lub przynajmniej równoważenie dwóch minimalizacji).
Moje pytanie brzmi: dlaczego ten termin regulowania dodawany do pierwotnej funkcji kosztu i nie jest mnożony, czy coś innego, co utrzymuje ducha motywacji za ideą regularyzacji? Czy dlatego, że jeśli dodamy do niego termin, jest on wystarczająco prosty i pozwala nam rozwiązać go analitycznie, czy też jest jakiś głębszy powód?
regularization
grenmester
źródło
źródło
Odpowiedzi:
Ma całkiem niezłą intuicję w ramach Bayesa. Weź pod uwagę, że funkcja kosztu regulowanegoJ ma podobną rolę jak prawdopodobieństwo konfiguracji parametru θ biorąc pod uwagę obserwacje X,y . Stosując twierdzenie Bayesa, otrzymujemy:
Zapisanie logu wyrażenia daje nam:
Powiedzmy teraz, że jest ujemną 1 log-tylną, . Ponieważ ostatni termin nie zależy od , możemy go pominąć bez zmiany minimum. Jesteś w lewo z dwóch warunków: 1) określenie prawdopodobieństwa w zależności od i , oraz 2) wcześniejszy termin w zależności od tylko. Te dwa terminy odpowiadają dokładnie terminowi danych i terminowi regularyzacji we wzorze.J(θ) −logP(θ|X,y) θ logP(X,y|θ) X y logP(θ) θ
Możesz pójść jeszcze dalej i pokazać, że opublikowana funkcja straty odpowiada dokładnie następującemu modelowi:
gdzie parametry pochodzą z zerowego średniego rozkładu Gaussa, a obserwacje mają zerowy średni szum Gaussa. Aby uzyskać więcej informacji, zobacz tę odpowiedź .θ y
1 Negatywne, ponieważ chcesz zmaksymalizować prawdopodobieństwo, ale zminimalizować koszt.
źródło
Jan i Cagdas podają dobry bayesowski powód, interpretując regularyzator jako pierwszy. Oto niektóre nie bayesowskie:
Jeśli twój nieregularny cel jest wypukły, a dodasz wypukły regulizator, wtedy twój całkowity cel będzie nadal wypukły. Nie będzie to prawdą, jeśli ją pomnożysz, lub większość innych metod łączenia. Optymalizacja wypukła jest naprawdę bardzo ładna w porównaniu do optymalizacji niewypukłej; jeśli wypukła formuła działa, lepiej to zrobić.
Czasami prowadzi to do bardzo prostej zamkniętej formy, jak wspomniano wpof w przypadku regresji grzbietu.
Jeśli myślisz o problemie, który „naprawdę” chcesz rozwiązać, jako problem z twardym ograniczeniem to jego Lagrange dual jest problemem Chociaż nie musisz używać dualności Lagrange'a, wiele się o tym rozumie.
Jak wspomniano ogogmad , twierdzenie o reprezentatorze ma zastosowanie w przypadku kary addytywnej: jeśli chcesz zoptymalizować na całej przestrzeni odtwarzającej funkcje jądra Hilberta , to wiemy, że rozwiązanie optymalizacji na całej przestrzeni leży w prostej podprzestrzeni skończonej wielkości dla wielu strat ; Nie wiem, czy tak by się stało z multiplikatywnym regulatorem (choć może). To jest podstawa SVM jądra.f H
Jeśli i tak prowadzisz głębokie uczenie się lub coś niewypukłego: straty addytywne dają proste gradienty addytywne. W przypadku prostego który podałeś, staje się to bardzo prosty masy . Jednak nawet w przypadku bardziej skomplikowanego regularizer, np WGAN-GP jest utrata łatwiej jest dla wstecznej propagacji obliczyć gradienty, gdy trzeba tylko wziąć pod uwagę sumę straty i skomplikowanego regulizatora (rozpatrywać osobno), zamiast konieczności wykonaj regułę produktu.L2
Straty addytywne podlegają również popularnemu algorytmowi optymalizacji ADMM i innym algorytmom opartym na „dekompozycji”.
Żadne z nich nie jest twardymi i szybkimi regułami, a nawet czasami multiplikatywny (lub jakiś inny) regulizator może działać lepiej (jak wskazuje Ogogmad ). (W rzeczywistości, właśnie przedłożyłem artykuł o tym, jak coś, co można interpretować jako multiplikatywny regulizator, działa lepiej niż dodatek WGAN-GP powyżej!). Mam jednak nadzieję, że to pomaga wyjaśnić, dlaczego dodatki regulujące są „domyślne”.
źródło
Chcesz zminimalizować oba terminy w funkcji celu. Dlatego musisz oddzielić warunki. Jeśli pomnożysz warunki, jeden może być duży, a drugi bardzo niski. Tak więc nadal otrzymujesz niską wartość funkcji celu, ale z niepożądanym rezultatem.
Możesz skończyć z modelem, który ma najwięcej zmiennych zbliżonych do zera bez mocy predykcyjnej.
Funkcja celu, która jest funkcją, która ma zostać zminimalizowana, może być konstruowana jako suma funkcji kosztu i warunków regularyzacji.
W przypadku, gdy oba są od siebie niezależne, otrzymujesz wartości przedstawione na pierwszym rysunku dla celu. Widzisz w przypadku sumy, jest tylko jedno minimum w (0, 0). W przypadku produktu masz dwuznaczność. Masz całą hiper-powierzchnię równą zero w (x = 0 lub y = 0). Tak więc algorytm optymalizacji może skończyć się gdziekolwiek, w zależności od twojej inicjalizacji. I nie może zdecydować, które rozwiązanie jest lepsze.
źródło
Możesz wypróbować inne operacje binarne ( ) i zobaczyć, jak się porównują.max,min,×
Problem z i polega na tym, że jeśli błąd wynosi , kara regulowana skończy się na . Pozwala to na dopasowanie modelu.min × 0 0
Problem z polega na tym, że w końcu minimalizujesz „trudniejsze” z dwóch kar (błąd szkolenia lub regularyzacja), ale nie drugiej.max
Natomiast jest prosty i działa.+
Możesz zapytać, dlaczego nie inne operacje binarne? Nie ma argumentu, który mógłby ich wykluczyć, więc dlaczego nie?
źródło
Myślę, że masz ważne pytanie. Aby udzielić właściwej odpowiedzi, musisz zrozumieć probabilistyczny charakter problemu.
Zasadniczo problem, który próbujemy rozwiązać, jest następujący: Biorąc pod uwagę dane jaki jest rozkład hipotez wyjaśniających te dane. Kiedy mówimy hipotezę, mamy na myśli PDF (przynajmniej w tym kontekście). A dystrybucja hipotez to PDF w formacie PDF, tzn. .D p(H|D)
Teraz, jeśli weźmiemy z obu stron równania Bayesa, otrzymamy:−log
Zwykle trudno jest obliczyć . Dobrą rzeczą jest to, że nie wpływa to na wynik. Jest to po prostu stała normalizacyjna.p(D)
Teraz na przykład, jeśli nasz zestaw hipotez jest grupą Gaussów z gdzie nie wiemy , ale zakładamy, że wiemy (lub przynajmniej zakładamy, że jest stała), a ponadto same hipotezy są rozłożone jako gaussowskie z następnie podłączenie wszystkiego powyżej wygląda mniej więcej tak:p(D|H) p(y|X,θ)∼N(θX,σ) θ σ p(H)=p(θ)∼N(0,α−1I)
Teraz, jeśli zminimalizujemy to wyrażenie, znajdziemy hipotezę o najwyższym prawdopodobieństwie. Stałe nie wpływają na minimalizację. To jest wyrażenie w twoim pytaniu.
Fakt, że użyliśmy Gaussianów, nie zmienia faktu, że termin regularyzacji jest dodatkowy. Musi być addytywny (w kategoriach logarytmicznych lub multiplikatywny w prawdopodobieństwach), nie ma innego wyboru. To, co zmieni się, jeśli użyjemy innych dystrybucji, to składniki dodatku. Podana funkcja kosztów / strat jest optymalna dla konkretnego scenariusza Gaussów.
źródło
Ridge to bardzo wygodny preparat. W przeciwieństwie do odpowiedzi probabilistycznych, odpowiedzi te nie dają żadnej interpretacji oszacowania, lecz wyjaśniają, dlaczego grzbiet jest starym i oczywistym sformułowaniem.
W regresji liniowej równania normalne dająθ^=(XTX)−1XTy
Ale matryca czasami nie jest odwracalna; jeden sposób, aby dostosować się przez dodanie małej elementu przekątnej: .X T X + α IXTX XTX+αI
Daje to rozwiązanie: ; wtedy nie rozwiązuje oryginalnego problemu, ale zamiast problemu z kalenicą. ˜ θθ~=(XTX+αI)−1XTy θ~
źródło
Myślę, że istnieje bardziej intuicyjny powód, dla którego nie możemy pomnożyć przez termin regularyzacji.
Przejdźmy naszą funkcję kary do zwykłej funkcji kary pomnożonej przez termin regularyzacji, jak sugerujesz.
Tutaj tworzymy globalne minimum funkcji kary, gdzie . W tym przypadku nasz model może generować wysokie błędy między prognozą a danymi, ale to nie ma znaczenia, jeśli wszystkie wagi parametrów modelu są zerowe, nasza funkcja kary wynosi zero .α∥θ∥22=0 J(θ=0)=0
Ponieważ, chyba że nasz model jest całkowicie idealny, termin nigdy nie może wynosić zero (prawdopodobieństwo istnienia zbioru θ aby nasz model był „idealny” w przypadku rzeczywistych danych, nie ma znaczenia), wtedy nasz model powinien zawsze dążyć do rozwiązania θ = 0.(12(y−θXT)(y−θXT)T)
To właśnie zwróci, chyba że utknie gdzieś w lokalnym minimum.
źródło