Po przeczytaniu rozdziału 3 w elementach statystycznego uczenia się (Hastie, Tibshrani i Friedman) zastanawiałem się, czy możliwe jest wdrożenie słynnych metod skurczu cytowanych w tytule tego pytania ze względu na strukturę kowariancji, tj. Zminimalizowanie (być może bardziej ogólnego ) ilość
zamiast zwykłego Było to głównie motywowane faktem, że w mojej konkretnej aplikacji mamy różne warianty dla (a czasem nawet strukturę kowariancji, którą można oszacować) i chciałbym uwzględnić je w regresji. Zrobiłem to dla regresji grzbietu: przynajmniej dzięki mojej implementacji w Pythonie / C widzę, że istnieją ważne różnice w ścieżkach, które śledzą współczynniki, co jest również zauważalne przy porównywaniu krzywych walidacji krzyżowej w obu przypadkach.
Przygotowywałem się teraz do próby wdrożenia LASSO poprzez regresję najmniejszego kąta, ale aby to zrobić, muszę najpierw udowodnić, że wszystkie jego miłe właściwości są nadal aktualne przy minimalizacji zamiast . Do tej pory nie widziałem żadnej pracy, która by to wszystko zrobiła , ale jakiś czas temu przeczytałem też cytat, w którym napisano coś w stylu „ ci, którzy nie znają statystyki, skazani są na jej ponowne odkrycie ” (być może Brad Efron? ), dlatego właśnie pytam tutaj najpierw (biorąc pod uwagę, że jestem względnym nowicjuszem w literaturze statystycznej): czy jest to już gdzieś zrobione dla tych modeli? Czy jest to w jakiś sposób zaimplementowane w R? (w tym rozwiązanie i wdrożenie kalenicy poprzez minimalizację zamiast, co jest zaimplementowane w kodzie lm.ridge w R)?
Dzięki z góry za odpowiedzi!
źródło
Odpowiedzi:
źródło