Oto coś, co przeczytałem w książce Iana Goodfellow'a Deep Learning .
W kontekście sieci neuronowych „kara za normę parametru L2 jest powszechnie znana jako zanik masy. Ta strategia regularyzacji przybliża wagi do źródła [...]. Mówiąc bardziej ogólnie, moglibyśmy uregulować parametry tak, aby znajdowały się w pobliżu dowolnego określonego punktu w kosmosie ”, ale znacznie częściej reguluje się parametry modelu w kierunku zera. (Deep Learning, Goodfellow i in.)
Jestem po prostu ciekawy. Rozumiem, że po prostu dodając termin regulujący do naszej funkcji kosztu, i minimalizując ten całkowity koszt , możemy wpłynąć na parametry modelu, aby pozostały małe:
Ale w jaki sposób wdrożyć wersję tej strategii regularyzacji, która doprowadziłaby parametry do dowolnego arbitralnego punktu? (powiedzmy, że chcemy, aby norma dążyła do 5)
ZdefiniujWiemy, że , ze względu na karę mającą źródło jako minimalizator.LimX→∞ w Î=0w↦‖w‖ 2 2
Sycorax zwraca uwagę, że podobnieTo udane uogólnienie może nas skłonić do zaproponowania estymatora gdzie jest funkcją którego minimalizator spełnia niektóre właściwości, których szukamy. Rzeczywiście, Sycorax przyjmuje , gdzie jest (wyjątkowo) minimalizowane u źródła, a w szczególności . Dlatego , zgodnie z życzeniem. Niestety oba wybory˜ w λ = arg min w L ( Θ , X , y ) + λ p e n ( w ) , p e n p e n (limλ→∞{argminwL(Θ,X,y)+λ∥w−c∥22}=c.
Powyższa analiza wydaje się być najlepszym rozwiązaniem (być może do wyboru , dla którego nie mam lepszego, który mógłby zasugerować), jeśli nalegamy, aby była jedyną w swoim rodzaju interpretacją „tendencji” opisaną w pytanie. Jednak przy założeniu, że , istnieje trochę dzięki czemu minimizer z problemów problemowych OP . Dlatego bez potrzeby zmiany funkcji celu. Jeśli nie istnieje taki , oznacza to problem z przetwarzaniemλ → ∞g λ→∞ Λ w Λ ‖ w Λ ‖ 2∥argminwL(Θ,X,y)∥22≥5 Λ w^Λ ∥w^Λ∥22=5
(Egzekwowanie, że ukarany estymator osiąga wartość kary, której nie osiąga niezaangażowany estymator, wydaje mi się bardzo nienaturalny. Jeśli ktoś wie o miejscach, w których jest to faktycznie pożądane, proszę o komentarz!)
źródło
Dla odpowiedniego możliwe jest postrzeganie go jako ujemnego prawdopodobieństwa logarytmicznego, a odpowiednią regularyzację można postrzegać jako ujemny prawdopodobieństwo logarytmiczne dla wcześniejszej dystrybucji. To podejście nazywa się Maximum A Posteriori (MAP).JL J
Przykłady Sycorax powinny być łatwe w świetle MAP.
Aby uzyskać szczegółowe informacje na temat MAP, możesz przejrzeć te notatki . Z mojego doświadczenia wynika, że googling „maksymalna regularyzacja a posteriori” daje dobre wyniki.
źródło