Zadano mi więc pytanie, na podstawie których oszacowano centralne miary L1 (tj. Lasso) i L2 (tj. Regresja grzbietu). Odpowiedź to L1 = mediana i L2 = średnia. Czy jest w tym coś intuicyjnego? A może trzeba to ustalić algebraicznie? Jeśli tak, jak mam to zrobić?
24
Odpowiedzi:
Istnieje proste geometryczne wyjaśnienie, dlaczego funkcja utraty L1 daje medianę.
Przypomnijmy, że pracujemy w jednym wymiarze, więc wyobraź sobie linię liczbową rozciągającą się w poziomie. Wykreśl każdy punkt danych na linii liczbowej. Połóż palec gdzieś na linii; Twój palec będzie Twoim aktualnym oszacowaniem kandydata.
Załóżmy, że przesuwasz palec nieco w prawo, powiedzδ jednostek w prawo. Co stanie się z całkowitą stratą? Cóż, jeśli twój palec znajdował się między dwoma punktami danych i przesuwasz go przez punkt danych, zwiększyłeś całkowitą utratę o δ dla każdego punktu danych na lewo od palca i zmniejszyłeś go o δ dla każdego punktu danych do na prawo od twojego palca. Jeśli więc jest więcej punktów danych po prawej stronie palca niż po lewej, przesunięcie palca w prawo zmniejsza całkowitą utratę. Innymi słowy, jeśli więcej niż połowa punktów danych znajduje się po prawej stronie palca, należy przesunąć palec w prawo.
Prowadzi to do przesunięcia palca w miejsce, w którym połowa punktów danych znajduje się na tym miejscu, a połowa na prawo. To miejsce jest medianą.
To L1 i mediana. Niestety nie mam podobnego wyjaśnienia „cała intuicja, brak algebry” dla L2 i średniej.
źródło
To wyjaśnienie jest streszczeniem muratoa i komentarzy Yvesa do odpowiedzi DW. Mimo że jest oparty na rachunku różniczkowym, uważam go za prosty i łatwy do zrozumienia.
Zakładając, że mamy a chcą uzyskać nowe oszacowanie p oparte na nich. Najmniejszą stratę uzyskuje się, gdy znajdziemy β, co powoduje, że pochodna straty wynosi zero.y1, y2), . . . yk β β
Utrata L1
∂L1
Utrata L2
∂L2
źródło
Dodanie do odpowiedzi DW jeszcze bardziej praktycznym przykładem (również dla funkcji utraty L2):
Wyobraź sobie małą wioskę złożoną z 4 domów blisko siebie (np. 10 metrów). W odległości 1 kilometra znajduje się kolejny bardzo odizolowany dom. Teraz przybywasz do tego miasta i chcesz gdzieś zbudować własny dom. Chcesz mieszkać blisko innych domów i przyjaźnić się ze wszystkimi. Rozważ te dwa alternatywne scenariusze:
Postanawiasz być w miejscu, w którym średnia odległość do dowolnego domu jest najmniejsza (tj. Minimalizując funkcję utraty L1).
Tak więc do najniższej średniej odległości 100 metrów dochodzi poprzez budowę domu we wsi. Mówiąc dokładniej, zbudujesz swój dom pośrodku tych 4 domów, aby zyskać kilka metrów średniej odległości. Okazuje się, że ten punkt jest „ punktem środkowym ”, który uzyskalibyście podobnie, stosując wzór mediany.
Tak więc, warto zauważyć, że nieco sprzecznie z intuicją, kiedy minimalizujemy sumę odległości, nie znajdujemy się w „środku” w sensie średniej, ale w sensie mediana. Jest to jeden z powodów, dla których OLS, jeden z najpopularniejszych modeli regresji, wykorzystuje błędy kwadratu zamiast błędów bezwzględnych.
źródło
Oprócz już opublikowanych odpowiedzi (które były dla mnie bardzo pomocne!) Istnieje geometryczne wyjaśnienie związku między normą L2 a średnią.
Aby użyć tego samego zapisu co chefwen , formuła utraty L2 jest następująca:
źródło