Ridge i LASSO otrzymali strukturę kowariancji?

11

Po przeczytaniu rozdziału 3 w elementach statystycznego uczenia się (Hastie, Tibshrani i Friedman) zastanawiałem się, czy możliwe jest wdrożenie słynnych metod skurczu cytowanych w tytule tego pytania ze względu na strukturę kowariancji, tj. Zminimalizowanie (być może bardziej ogólnego ) ilość

(y-Xβ)T.V.-1(y-Xβ)+λfa(β),   (1)

zamiast zwykłego Było to głównie motywowane faktem, że w mojej konkretnej aplikacji mamy różne warianty dla (a czasem nawet strukturę kowariancji, którą można oszacować) i chciałbym uwzględnić je w regresji. Zrobiłem to dla regresji grzbietu: przynajmniej dzięki mojej implementacji w Pythonie / C widzę, że istnieją ważne różnice w ścieżkach, które śledzą współczynniki, co jest również zauważalne przy porównywaniu krzywych walidacji krzyżowej w obu przypadkach.

(y-Xβ)(y-Xβ)+λfa(β).            (2))
y

Przygotowywałem się teraz do próby wdrożenia LASSO poprzez regresję najmniejszego kąta, ale aby to zrobić, muszę najpierw udowodnić, że wszystkie jego miłe właściwości są nadal aktualne przy minimalizacji zamiast . Do tej pory nie widziałem żadnej pracy, która by to wszystko zrobiła , ale jakiś czas temu przeczytałem też cytat, w którym napisano coś w stylu „ ci, którzy nie znają statystyki, skazani są na jej ponowne odkrycie ” (być może Brad Efron? ), dlatego właśnie pytam tutaj najpierw (biorąc pod uwagę, że jestem względnym nowicjuszem w literaturze statystycznej): czy jest to już gdzieś zrobione dla tych modeli? Czy jest to w jakiś sposób zaimplementowane w R? (w tym rozwiązanie i wdrożenie kalenicy poprzez minimalizację zamiast(1)(2))(1)(2)), co jest zaimplementowane w kodzie lm.ridge w R)?

Dzięki z góry za odpowiedzi!

Néstor
źródło
Poprzednia odpowiedź została również podana bardziej szczegółowo w en.wikipedia.org/wiki/Generalized_least_squares . Rozwiązanie można wdrożyć, stosując podejście Feasible Generalized Least Square (FGLS)
Nicola Jean

Odpowiedzi:

13

V.-1=L.T.L.

(y-Xβ)T.V.-1(y-Xβ)=(L.y-L.Xβ)T.(L.y-L.Xβ)
L.yL.X
NRH
źródło