Podczas wyjaśniania regresji LASSO często stosuje się schemat rombu i koła. Mówi się, że ponieważ kształt ograniczenia w LASSO jest diamentem, otrzymane rozwiązanie najmniejszych kwadratów może dotykać narożnika diamentu, powodując skurcz jakiejś zmiennej. Jednak w regresji grzbietu, ponieważ jest to okrąg, często nie dotyka osi. Nie mogłem zrozumieć, dlaczego nie może dotknąć osi lub być może ma mniejsze prawdopodobieństwo niż LASSO zmniejszenia niektórych parametrów. Ponadto, dlaczego LASSO i grzbiet mają mniejszą wariancję niż zwykłe najmniejsze kwadraty? Powyżej jest moje rozumienie grzbietu i LASSO i mogę się mylić. Czy ktoś może mi pomóc zrozumieć, dlaczego te dwie metody regresji mają mniejszą wariancję?
regression
lasso
ridge-regression
użytkownik10024395
źródło
źródło
Odpowiedzi:
Dotyczy to wariancji
OLS zapewnia tzw. Najlepszy liniowy bezstronny estymator (NIEBIESKI) . Oznacza to, że jeśli weźmiesz jakikolwiek inny obiektywny estymator, będzie on miał większą wariancję niż rozwiązanie OLS. Dlaczego więc, u licha, powinniśmy brać pod uwagę cokolwiek innego?
Teraz sztuczką z regularyzacją, taką jak lasso lub grzbiet, jest dodanie z kolei pewnych odchyleń w celu zmniejszenia wariancji. Bo kiedy oszacować błąd predykcji jest to kombinacja trzech rzeczy :
Więc co to jest ? Jest to wariancja wprowadzona w oszacowaniach parametrów w twoim modelu. Model liniowy ma postać y = X β + ϵ ,Var [ f^( x ) ) ]
W celu uzyskania rozwiązania OLS rozwiązujemy problem minimalizacji
arg min β | | y - X β | | 2
To zapewnia rozwiązanie
β OLS = ( X , T X ) - 1 X t y
problem minimalizacji regresji grzbiet jest podobna:
Arg min β | | y - X β | |
Nie jestem pewien, czy mogę udzielić bardziej jednoznacznej odpowiedzi. Wszystko to sprowadza się do macierzy kowariancji dla parametrów w modelu i wielkości wartości w tej macierzy kowariancji.
Jako przykład wziąłem regresję grzbietu, ponieważ jest to o wiele łatwiejsze do wyleczenia. Lasso jest znacznie trudniejsze i wciąż trwają badania nad tym tematem.
Te slajdy zawierają więcej informacji, a ten blog zawiera również pewne istotne informacje.
EDYCJA: Co mam na myśli, że dodając grzbiet wyznacznik jest „ odciągany ” od zera?
Oto kod R ilustrujący to:
Co daje wyniki:
Tak więc wszystkie wartości własne zostają zwiększone o dokładnie 3.
Możesz to ogólnie udowodnić, używając twierdzenia o okręgu Gershgorina . Tam środkami okręgów zawierających wartości własne są elementy ukośne. Zawsze możesz dodać „tyle” do elementu ukośnego, aby wszystkie koła w dodatniej rzeczywistej półpłaszczyźnie. Ten wynik jest bardziej ogólny i nie jest potrzebny do tego.
źródło
Regresja Ridge
L2 = (y-xβ) ^ 2 + λ∑βi ^ 2
Rozwiąże to równanie tylko na razie dla jednego β, a później można uogólnić to:
Tak więc, (y-xβ) ^ 2 + λβ ^ 2 to jest nasze równanie dla jednego β.
Naszym celem jest zminimalizowanie powyższego równania, aby móc to zrobić, wyrówna to do zera i przyjmie pochodne wrt β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Korzystanie z rozszerzenia (ab) ^ 2
Częściowe pochodne wrt
-2xy + 2x ^ 2β + 2βλ = 0
2β (x ^ 2 + λ) = 2xy
β = 2xy / 2 (x ^ 2 + λ)
Wreszcie
β = xy / (x ^ 2 + λ)
Jeśli zaobserwujesz mianownik, nigdy nie będzie on zerowy, ponieważ dodajemy pewną wartość λ (tj. Parametr hiper). Dlatego wartość β będzie tak niska, jak to możliwe, ale nie osiągnie zera.
Regresja LASSO:
L1 = (y-xβ) ^ 2 + λ∑ | β |
Na razie rozwiąże to równanie tylko dla jednego β, a później możesz uogólnić to na więcej β:
Tak więc, (y-xβ) ^ 2 + λβ to jest nasze równanie dla jednego β, tutaj rozważałem + ve wartość β.
Naszym celem jest zminimalizowanie powyższego równania, aby móc to zrobić, wyrówna to do zera i przyjmie pochodne wrt β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Korzystanie z rozszerzenia (ab) ^ 2
Częściowe pochodne wrt
-2xy + 2x ^ 2β + λ = 0
2x ^ 2β + λ = 2xy
2x ^ 2β = 2xy-λ
Wreszcie
β = (2xy-λ) / (2X ^ 2)
Jeśli zaobserwujesz licznik, wyniesie on zero, ponieważ odejmujemy pewną wartość λ (tj. Parametr hiper). Dlatego wartość β zostanie ustawiona na zero.
źródło