Jak wdrożyć regularyzację L2 do dowolnego punktu w kosmosie?

11

Oto coś, co przeczytałem w książce Iana Goodfellow'a Deep Learning .

W kontekście sieci neuronowych „kara za normę parametru L2 jest powszechnie znana jako zanik masy. Ta strategia regularyzacji przybliża wagi do źródła [...]. Mówiąc bardziej ogólnie, moglibyśmy uregulować parametry tak, aby znajdowały się w pobliżu dowolnego określonego punktu w kosmosie ”, ale znacznie częściej reguluje się parametry modelu w kierunku zera. (Deep Learning, Goodfellow i in.)

Jestem po prostu ciekawy. Rozumiem, że po prostu dodając termin regulujący do naszej funkcji kosztu, i minimalizując ten całkowity koszt , możemy wpłynąć na parametry modelu, aby pozostały małe:J

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Ale w jaki sposób wdrożyć wersję tej strategii regularyzacji, która doprowadziłaby parametry do dowolnego arbitralnego punktu? (powiedzmy, że chcemy, aby norma dążyła do 5)

Ulepek
źródło

Odpowiedzi:

14

Zadajesz dwa różne pytania.

  1. Posiadanie normy ma tendencję do 5, co oznacza, że ​​chcesz, aby ciężary znajdowały się w pobliżu powierzchni hipersfery wyśrodkowanej na początku o promieniu 5. Ta normalizacja wygląda mniej więcej

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

Ale zamiast tego możesz użyć czegoś takiego jak λabs(||w||225) , jak sądzę.

  1. Z drugiej strony, jeśli chcesz dążyć do dowolnego punktu, wystarczy użyć tego punktu jako środka c .

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22
Sycorax mówi Przywróć Monikę
źródło
(+1) Myślę, że owocnym sposobem myślenia o „normie zmierzającej do pięciu” może być wybór parametru strojenia w wersji podanej przez OP (zamiast zmiany funkcji)J
user795305
(Napisałem krótką odpowiedź, aby wyjaśnić, co mam na myśli powyżej.
Nawiasem
wspólnym (praktycznym) celem przy tym jest regularyzacja w kierunku znanego punktu operacyjnego, np. poprzedniego modelu, który chcesz zastąpić, ale dla którego chciałbyś „płynnego” przejścia
oDDsKooL
6

ZdefiniujWiemy, że , ze względu na karę mającą źródło jako minimalizator.LimX w Î=0ww 2 2

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycorax zwraca uwagę, że podobnieTo udane uogólnienie może nas skłonić do zaproponowania estymatora gdzie jest funkcją którego minimalizator spełnia niektóre właściwości, których szukamy. Rzeczywiście, Sycorax przyjmuje , gdzie jest (wyjątkowo) minimalizowane u źródła, a w szczególności . Dlatego , zgodnie z życzeniem. Niestety oba wybory˜ w λ = arg min w L ( Θ , X , y ) + λ p e n ( w ) , p e n p e n (limλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
peng g { | | ,pen(w)=g(w225)glim λ ˜ w λ 2 2 = 5 gg{||,()2}limλw~λ22=5gprowadzić do kar, które nie są wypukłe, co powoduje, że estymator jest trudny do obliczenia.

Powyższa analiza wydaje się być najlepszym rozwiązaniem (być może do wyboru , dla którego nie mam lepszego, który mógłby zasugerować), jeśli nalegamy, aby była jedyną w swoim rodzaju interpretacją „tendencji” opisaną w pytanie. Jednak przy założeniu, że , istnieje trochę dzięki czemu minimizer z problemów problemowych OP . Dlatego bez potrzeby zmiany funkcji celu. Jeśli nie istnieje taki , oznacza to problem z przetwarzaniemλ gλΛ w Λw Λ 2argminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λw Îw Î 2 2argminw:w22=5L(Θ,X,y) jest z natury trudne. Rzeczywiście, nie trzeba brać pod uwagę żadnego estymatora oprócz , próbując zachęcić do naturalnych właściwości .w^λw^λ22

(Egzekwowanie, że ukarany estymator osiąga wartość kary, której nie osiąga niezaangażowany estymator, wydaje mi się bardzo nienaturalny. Jeśli ktoś wie o miejscach, w których jest to faktycznie pożądane, proszę o komentarz!)

użytkownik795305
źródło
1
To doskonały dodatek. +1
Sycorax mówi Przywróć Monikę
2

Dla odpowiedniego możliwe jest postrzeganie go jako ujemnego prawdopodobieństwa logarytmicznego, a odpowiednią regularyzację można postrzegać jako ujemny prawdopodobieństwo logarytmiczne dla wcześniejszej dystrybucji. To podejście nazywa się Maximum A Posteriori (MAP).JLJ

Przykłady Sycorax powinny być łatwe w świetle MAP.

Aby uzyskać szczegółowe informacje na temat MAP, możesz przejrzeć te notatki . Z mojego doświadczenia wynika, że ​​googling „maksymalna regularyzacja a posteriori” daje dobre wyniki.

Jakub Bartczuk
źródło