Dlaczego utrata normy L2 ma unikalne rozwiązanie, a utrata normy L1 ma prawdopodobnie wiele rozwiązań?

16

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

Jeśli spojrzysz na górę tego postu, pisarz wspomina, że ​​norma L2 ma unikalne rozwiązanie, a norma L1 ma prawdopodobnie wiele rozwiązań. Rozumiem to w kategoriach regularyzacji, ale nie w kategoriach użycia normy L1 lub normy L2 w funkcji straty.

Jeśli spojrzysz na wykresy funkcji skalarnej x (x ^ 2 i | x |), możesz łatwo zauważyć, że oba mają jedno unikalne rozwiązanie.

użytkownik3180
źródło
2
„fnx”? ... Edytuj, aby to wyjaśnić. Masz na myśli „funkcje”?
Glen_b

Odpowiedzi:

25

Rozważmy jednowymiarowy problem dla najprostszej możliwej ekspozycji. (Przypadki o wyższych wymiarach mają podobne właściwości).

|xμ|(xμ)2i|xiμ|x1=1x2=3

Wykres sum_i | x_i - mu |

μ

L1

i(xiμ)2=n(x¯μ)2+k(x)


L1

Ponieważ (poza pewnymi szczególnymi okolicznościami) zwykle nie masz żadnej takiej gwarancji braku bardzo wpływowych obserwacji, nie nazwałbym regresją L1 solidną.


Kod R dla wykresu:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)
Glen_b - Przywróć Monikę
źródło
To jest świetne. Jakiego oprogramowania użyłeś do wykonania wykresu?
user3180,
2
R. To właśnie zostało zrobione w grafice podstawowej. Dodałem kod na końcu mojej odpowiedzi.
Glen_b
1
Woah, nigdy nie zdawałem sobie sprawy, że możesz dostarczyć funkcję plot. Umysł jest wysadzony w powietrze.
JAD,
5

Minimalizacja straty L2 odpowiada obliczeniu średniej arytmetycznej, co jest jednoznaczne, natomiast minimalizacja straty L1 odpowiada obliczeniu mediany, która jest niejednoznaczna, jeśli w obliczeniu mediany uwzględniona jest parzysta liczba elementów (patrz Tendencja centralna: Rozwiązania problemów wariacyjnych ).

Cześć Żegnaj
źródło