Problem lasso ma rozwiązanie w formie zamkniętej: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ +
jeśli X ma kolumny ortonormalne. Pokazano to w tym wątku: Wyprowadzenie zamkniętego rozwiązania lasso .
βlasso=argminβ∥y−Xβ∥22+α∥β∥1
βlassoj=sgn(βLSj)(|βLSj|−α)+
X
Nie rozumiem jednak, dlaczego ogólnie nie ma rozwiązania w formie zamkniętej. Korzystając z subdifferentials otrzymałem następujące.
( X jest n×p )
f(β)=∥y−Xβ∥22+α∥β∥1
=∑i=1n(yi−Xiβ)2+α∑j=1p|βj|
(
Xi to i-ty rząd
X )
=∑i=1ny2i−2∑i=1nyiXiβ+∑i=1nβTXTiXiβ+α∑j=1p|βj|
⇒∂f∂βj=−2∑i=1nyiXij+2∑i=1nX2ijβj+∂∂βj(α|βj|)
=⎧⎩⎨⎪⎪−2∑ni=1yiXij+2∑ni=1X2ijβj+α for βj>0−2∑ni=1yiXij+2∑ni=1X2ijβj−α for βj<0[−2∑ni=1yiXij−α,−2∑ni=1yiXij+α] for βj=0
Z
∂f∂βj=0 otrzymujemy
βj=⎧⎩⎨⎪⎪(2(∑ni=1yiXij)−α)/2∑ni=1X2ij(2(∑ni=1yiXij)+α)/2∑ni=1X2ij0for ∑ni=1yiXij>αfor ∑ni=1yiXij<−α for ∑ni=1yiXij∈[−α,α]
Czy ktoś widzi, gdzie popełniłem błąd?
Odpowiedź:
Jeśli piszemy problem w postaci macierzy, możemy bardzo łatwo zrozumieć, dlaczego rozwiązanie formy zamkniętej istnieje tylko w przypadku ortonormalnym z XTX=I :
f(β)=∥y−Xβ∥22+α∥β∥1
=yTy−2βTXTy+βTXTXβ+α∥β∥1
⇒∇f(β)=−2XTy+2XTXβ+∇(α|β∥1)
(tutaj zrobiłem wiele kroków naraz. Jednak, do tego momentu jest to całkowicie analogiczne do wyprowadzania rozwiązania najmniejszych kwadratów. Więc powinieneś być w stanie znaleźć tam brakujące kroki.)
⇒∂f∂βj=−2XTjy+2(XTX)jβ+∂∂βj(α|βj|)
Z ∂f∂βj=0 otrzymujemy
2(XTX)jβ=2XTjy−∂∂βj(α|βj|)
⇔2(XTX)jjβj=2XTjy−∂∂βj(α|βj|)−2∑i=1,i≠jp(XTX)jiβi
Widzimy teraz, że nasze rozwiązanie dla jednego zależy od wszystkich pozostałych więc nie jest jasne, jak postępować tutaj. Jeśli jest ortonormalny, mamy więc na pewno istnieje rozwiązanie w formie zamkniętej.βjβi≠jX2(XTX)jβ=2(I)jβ=2βj
Dziękuję Guðmundurowi Einarssonowi za jego odpowiedź, na której tu opracowałem. Mam nadzieję, że tym razem jest to poprawne :-)
Odpowiedzi:
Zwykle odbywa się to z regresją najmniejszego kąta, papier można znaleźć tutaj .
Przepraszam za moje zamieszanie na początku, podejmę kolejną próbę.
Po rozszerzeniu funkcji otrzymujeszf(β)
Następnie obliczasz pochodną cząstkową w odniesieniu do . Moje obawy dotyczą twojego wyliczenia pochodnej cząstkowej ostatniego terminu przed normą 1, tj. Wyrażenia kwadratowego. Przeanalizujmy to dalej. Mamy to:βj
Więc teraz twój problem nie upraszcza się tak łatwo, ponieważ masz wszystkie współczynniki obecne w każdym równaniu.β
To nie odpowiada na pytanie, dlaczego nie ma zamkniętego rozwiązania Lasso, mógłbym dodać coś później.
źródło