Mediana szacuje regresję L1, podczas gdy szacunki regresji L2 oznaczają?

24

Zadano mi więc pytanie, na podstawie których oszacowano centralne miary L1 (tj. Lasso) i L2 (tj. Regresja grzbietu). Odpowiedź to L1 = mediana i L2 = średnia. Czy jest w tym coś intuicyjnego? A może trzeba to ustalić algebraicznie? Jeśli tak, jak mam to zrobić?

Bstat
źródło
4
Czy przez L1 / L2 masz na myśli funkcję celu czy ograniczenia? Jeśli funkcja celu, to tak błąd L1 jest minimalizowany za pomocą mediany warunkowej, a L2 średnia warunkowa. Jeśli ograniczenia (do czego odnosi się grzbiet / lasso), jest to niewłaściwy sposób myślenia o tym. Ich „centralne miary” wciąż zmierzają do uzyskania warunkowego środka, ale z różnymi karami za β .
muratoa,

Odpowiedzi:

24

Istnieje proste geometryczne wyjaśnienie, dlaczego funkcja utraty L1 daje medianę.

Przypomnijmy, że pracujemy w jednym wymiarze, więc wyobraź sobie linię liczbową rozciągającą się w poziomie. Wykreśl każdy punkt danych na linii liczbowej. Połóż palec gdzieś na linii; Twój palec będzie Twoim aktualnym oszacowaniem kandydata.

Załóżmy, że przesuwasz palec nieco w prawo, powiedz δ jednostek w prawo. Co stanie się z całkowitą stratą? Cóż, jeśli twój palec znajdował się między dwoma punktami danych i przesuwasz go przez punkt danych, zwiększyłeś całkowitą utratę o δ dla każdego punktu danych na lewo od palca i zmniejszyłeś go o δ dla każdego punktu danych do na prawo od twojego palca. Jeśli więc jest więcej punktów danych po prawej stronie palca niż po lewej, przesunięcie palca w prawo zmniejsza całkowitą utratę. Innymi słowy, jeśli więcej niż połowa punktów danych znajduje się po prawej stronie palca, należy przesunąć palec w prawo.

Prowadzi to do przesunięcia palca w miejsce, w którym połowa punktów danych znajduje się na tym miejscu, a połowa na prawo. To miejsce jest medianą.

To L1 i mediana. Niestety nie mam podobnego wyjaśnienia „cała intuicja, brak algebry” dla L2 i średniej.

DW
źródło
7
Jeśli mówimy o prostym oszacowaniu punktowym, to jest to prosty rachunek różniczkowy. rereβ1nja=1n(yja-β)2)=-2)1nja=1n(yja-β)=0β=1njayja
muratoa
3
@muratoa, tak, znam obliczanie rachunku różniczkowego, ale pytanie dotyczy konkretnie wyjaśnienia, które skupia się na intuicji i unika algebry. Zakładam, że pytający zna już wyprowadzanie rachunku różniczkowego, ale szuka czegoś, co zapewni więcej intuicji.
DW,
Myślałem, że OP wspomniał o regresji, która sugeruje, że mówi on o oszacowaniu y dla x, który jest średnią warunkową z wykorzystaniem najmniejszych kwadratów i mediany warunkowej dla średniego błędu bezwzględnego. Te same wyjaśnienia powinny działać, ale problem jest nieco inny. Wyjaśnienie rachunku dla średniej jest dość jasne i proste. Być może wyjaśnienie średniej można podać w podobny sposób jak DW dla mediany. Średnia próby jest obiektywnym oszacowaniem średniej populacji.
Michael R. Chernick,
Gdy odsuniesz oszacowanie od próbki, średni błąd kwadratu zmienia się z powodu wzrostu obciążenia. Średni błąd kwadratowy faktycznie wzrasta o d 2, gdy oszacowanie dodaje d do średniej próby jako oszacowanie kandydata. 2)
Michael R. Chernick,
11
Istnieje szybka i brudna wersja algebry podana przez muratoa dla przypadku L1. Zauważ, że z wyjątkiem sytuacji, gdy , pochodna | y i - β | WRT β jest - y g n ( Y i - β ) , czyli - 1 jeśli β < r i i + 1 Jeśli β > r i . Więc dβ=yja|yja-β|β-ssoln(yja-β)-1β<yja+1β>yja , z wyjątkiem sytuacji, gdy β oznacza y i . Pochodna znika, gdy występuje taka sama liczba dodatnich i ujemnych składników między y i - β , co z grubsza powstaje, gdy β jest medianą y i . rereβ1nja|yja-β|=-1njassoln(yja-β)βyjayja-ββyja
Yves,
17

To wyjaśnienie jest streszczeniem muratoa i komentarzy Yvesa do odpowiedzi DW. Mimo że jest oparty na rachunku różniczkowym, uważam go za prosty i łatwy do zrozumienia.

Zakładając, że mamy a chcą uzyskać nowe oszacowanie p oparte na nich. Najmniejszą stratę uzyskuje się, gdy znajdziemy β, co powoduje, że pochodna straty wynosi zero.y1,y2),...ykββ

Utrata L1

L1

L.1=1kja=1k|yja-β|
sgn(yi-β)wynosi 1, gdyyi>β, -1 gdyyi<β. Pochodna jest równa 0, gdy istnieje taka sama liczba dodatnich i ujemnych składników międzyyi-β, co oznacza, żeβpowinna być medianąyi.
L.1β=-1kja=1kssoln(yja-β)
ssoln(yja-β)yja>βyja<βyjaββyja

Utrata L2

L2

L.2)=1kja=1k(yja-β)2)
L2
L.2)β=-2)kja=1k(yja-β)
Aby więc zminimalizować utratę L2,βpowinna być średniąyi.
L.2)β=0β=1kja=1kyja

βyja
szef kuchni
źródło
3

Dodanie do odpowiedzi DW jeszcze bardziej praktycznym przykładem (również dla funkcji utraty L2):

Wyobraź sobie małą wioskę złożoną z 4 domów blisko siebie (np. 10 metrów). W odległości 1 kilometra znajduje się kolejny bardzo odizolowany dom. Teraz przybywasz do tego miasta i chcesz gdzieś zbudować własny dom. Chcesz mieszkać blisko innych domów i przyjaźnić się ze wszystkimi. Rozważ te dwa alternatywne scenariusze:

  1. Postanawiasz być w miejscu, w którym średnia odległość do dowolnego domu jest najmniejsza (tj. Minimalizując funkcję utraty L1).

    • Jeśli umieścisz swój dom w centrum wioski, będziesz w odległości około 10 metrów od 4 domów i 1 km od jednego domu, co daje średnią odległość około 200 metrów (10 + 10 + 10 + 10 + 1000 / 5).
    • Jeśli umieścisz dom 500 metrów od wioski, będziesz w odległości około 500 metrów od 5 domów, co daje średnią odległość 500 metrów.
    • Jeśli umieścisz swój dom obok izolowanego domu, będziesz w odległości 1 km od wioski (4 domy) i około 10 metrów od 1 domu, co daje średnią odległość około 800 metrów.

    Tak więc do najniższej średniej odległości 100 metrów dochodzi poprzez budowę domu we wsi. Mówiąc dokładniej, zbudujesz swój dom pośrodku tych 4 domów, aby zyskać kilka metrów średniej odległości. Okazuje się, że ten punkt jest „ punktem środkowym ”, który uzyskalibyście podobnie, stosując wzór mediany.

  2. Decydujesz się na demokratyczne podejście. Pytasz każdego z pięciu przyszłych sąsiadów o preferowaną lokalizację nowego domu. Wszyscy cię lubią i chcą, abyś mieszkał blisko nich. Wszyscy podają więc swoją preferowaną lokalizację jako miejsce tuż obok własnego domu. Bierzesz średnią ze wszystkich głosowanych lokalizacji twoich pięciu sąsiadów, a wynik to „200 metrów od wioski” (średnia głosów: 0 + 0 + 0 + 0 + 1000/5 = 200), co stanowi „ średni punkt ” z 5 domów, który uzyskałbyś podobnie stosując średnią formułę. Lokalizacja ta okazuje się dokładnie taka sama, która naśladuje sumę kwadratów odległości (tj. Funkcja utraty L2). Zróbmy matematykę, aby to zobaczyć:
    • W tej lokalizacji suma kwadratów odległości wynosi: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • Jeśli zbudujemy dom w centrum wioski, nasza suma kwadratowych odległości wyniesie: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • Jeśli budujemy, budujemy dom w odległości 100 metrów od wioski (jak w 1), suma kwadratów odległości wynosi: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • Jeśli zbudujemy dom w odległości 100 metrów od izolowanego domu, suma kwadratów odległości wynosi: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Tak więc, warto zauważyć, że nieco sprzecznie z intuicją, kiedy minimalizujemy sumę odległości, nie znajdujemy się w „środku” w sensie średniej, ale w sensie mediana. Jest to jeden z powodów, dla których OLS, jeden z najpopularniejszych modeli regresji, wykorzystuje błędy kwadratu zamiast błędów bezwzględnych.

Jonathan Zimmermann
źródło
1

Oprócz już opublikowanych odpowiedzi (które były dla mnie bardzo pomocne!) Istnieje geometryczne wyjaśnienie związku między normą L2 a średnią.

Aby użyć tego samego zapisu co chefwen , formuła utraty L2 jest następująca:

L.2)=1kja=1k(yja-β)2)

βL.2)k

ja=1k(yja-β)2)

ykyβ=(β,β,...,β)

βyββ1=(1,1,...,1)y1

k=2)y=(2),6)1(4,4)

wektor y rzutowany na beta

k>2)

β=proj1y=y1|1|2)1β=ja=1kyjak
Paweł
źródło