Regresja najmniejszego kąta utrzymuje korelacje monotonicznie malejące i powiązane?

9

Próbuję rozwiązać problem regresji najmniejszego kąta (LAR). Jest to problem, 3,23 , na stronie 97 w Hastie wsp. Elementy Statistical Learning, 2nd. wyd. (Piąty druk) .

Rozważ problem regresji ze wszystkimi zmiennymi i odpowiedzią mającą średnie zero i odchylenie standardowe jeden. Załóżmy również, że każda zmienna ma identyczną absolutną korelację z odpowiedzią:

1N|xj,y|=λ,j=1,...,p

Niech będzie współczynnikiem najmniejszych kwadratów z na i niech dla .β^yXu(α)=αXβ^α[0,1]

Poproszono mnie o pokazanie, że i mam z tym problemy. Zauważ, że może to w zasadzie powiedzieć, że korelacje każdego z pozostają równe pod względem wielkości w miarę zbliżania się do .

1N.|xjot,y-u(α)|=(1-α)λ,jot=1,...,p
xjotu

Nie wiem też, jak pokazać, że korelacje są równe:

λ(α)=(1-α)(1-α)2)+α(2)-α)N.RS.S.λ

Wszelkie wskazówki będą mile widziane!

Belmont
źródło
2
@Belmont, co to jest u(α)? Czy możesz podać więcej informacji na temat swojego problemu? Na przykład bardzo pomógłby link do artykułu ze standardowymi właściwościami LAR.
mpiktas
@Belmont, To wygląda na problem z Hastie i wsp., Elements of Statistics Learning , 2nd. wyd. Czy to zadanie domowe? Jeśli tak, możesz dodać ten tag.
kardynał
@Belmont, teraz, gdy @cardinal udzielił pełnej odpowiedzi, czy możesz określić, czym tak naprawdę jest LAR, do wglądu w przyszłości? Sądząc z odpowiedzi, jest to standardowa manipulacja produktami regresji najmniejszych kwadratów, biorąc pod uwagę pewne początkowe ograniczenia. Bez poważnego powodu nie powinno być dla niego specjalnej nazwy.
mpiktas
1
@mpiktas, jest to algorytm stagewise, więc za każdym razem, gdy zmienna wchodzi lub wychodzi z modelu na ścieżce regularyzacji, rozmiar (tj. liczność / wymiar) βodpowiednio rośnie lub kurczy się i stosuje się „nowe” oszacowanie LS na podstawie obecnie „aktywnych” zmiennych. W przypadku lasso, które jest problemem optymalizacji wypukłej, procedura polega zasadniczo na wykorzystaniu specjalnej struktury w warunkach KKT w celu uzyskania bardzo skutecznego rozwiązania. Istnieją również uogólnienia dotyczące np. Regresji logistycznej opartej na IRLS i Heine-Borel (aby udowodnić zbieżność w skończonej
liczbie
1
@Belmont -1, ponieważ niedawno kupiłem książkę Hastie, mogę potwierdzić, że jest to ćwiczenie z niej. Daję ci więc dużą -1, ponieważ nie udaje ci się nawet podać wszystkich definicji, nawet nie mówię o podaniu odniesienia.
mpiktas

Odpowiedzi:

21

Jest to problem, 3,23 , na stronie 97 w Hastie wsp. Elementy Statistical Learning , 2. wyd. (Piąty druk) .

Kluczem do tego problemu jest dobre zrozumienie zwykłych najmniejszych kwadratów (tj. Regresji liniowej), w szczególności ortogonalności dopasowanych wartości i reszt.

Lemat ortogonalności : NiechX być n×p matryca projektowa, y wektor odpowiedzi i β(prawdziwe) parametry. ZarozumiałyX szacuje OLS na pełną pozycję (co będziemy przez cały czas) ββ^=(XTX)1XTy. Dopasowane wartości toy^=X(XTX)1XTy. Następniey^,yy^=y^T(yy^)=0. Oznacza to, że dopasowane wartości są ortogonalne względem reszt. Wynika to późniejXT.(y-y^)=XT.y-XT.X(XT.X)-1XT.y=XT.y-XT.y=0.

Teraz pozwól xjot być wektorem kolumny takim, że xjot jest jotkolumna z X. Zakładane warunki to:

  • 1N.xjot,xjot=1 dla każdego jot, 1Ny,y=1,
  • 1Nxj,1p=1Ny,1p=0 gdzie 1p oznacza wektor jedności długości p, i
  • 1N|xj,y|=λ dla wszystkich j.

Zwróć uwagę, że w szczególności ostatnie zdanie lematu ortogonalności jest identyczne zxj,yy^=0 dla wszystkich j.


Korelacje są ze sobą powiązane

Teraz, u(α)=αXβ^=αy^. Więc,

xj,yu(a)=xj,(1α)y+αyαy^=(1α)xj,y+αxj,yy^,
a drugi termin po prawej stronie jest równy zero przez lemat ortogonalności , więc
1N|xj,yu(α)|=(1α)λ,
zgodnie z życzeniem. Bezwzględna wartość korelacji jest sprawiedliwa
ρ^j(α)=1N|xj,yu(α)|1Nxj,xj1Nyu(α),yu(α)=(1α)λ1Nyu(α),yu(α)

Uwaga : prawa strona powyżej jest niezależna odj a licznik jest taki sam jak kowariancja, ponieważ przyjęliśmy, że wszystkie xji y są wyśrodkowane (w szczególności nie jest konieczne odejmowanie średniej).

Jaki jest sens? Tak jakαzwiększa wektor odpowiedzi jest modyfikowany w taki sposób, że zbliża się do rozwiązania ( ograniczonego! ) rozwiązania najmniejszych kwadratów uzyskanego z włączenia tylko pierwszegopparametry w modelu. To jednocześnie modyfikuje oszacowane parametry, ponieważ są one prostymi produktami wewnętrznymi predyktorów z (zmodyfikowanym) wektorem odpowiedzi. Modyfikacja ma jednak specjalną formę. Utrzymuje (wielkość) korelacji między predyktorami a zmodyfikowaną odpowiedzią w tym samym czasie w całym procesie (nawet jeśli zmienia się wartość korelacji). Pomyśl o tym, co robi to geometrycznie, a zrozumiesz nazwę procedury!


Jawna forma (absolutnej) korelacji

Skupmy się na wyrażeniu w mianowniku, ponieważ licznik jest już w wymaganej formie. Mamy

yu(α),yu(α)=(1α)y+αyu(α),(1α)y+αyu(α).

Zastępowanie w u(α)=αy^ i używając liniowości wewnętrznego produktu, otrzymujemy

yu(α),yu(α)=(1α)2y,y+2α(1α)y,yy^+α2yy^,yy^.

Obseruj to

  • y,y=N z założenia
  • y,yy^=yy^,yy^+y^,yy^=yy^,yy^, poprzez zastosowanie lematu ortogonalności (jeszcze raz) do drugiego wyrażenia w środku; i,
  • yy^,yy^=RSS zgodnie z definicją.

Podsumowując, zauważysz, że otrzymamy

ρ^j(α)=(1α)λ(1α)2+α(2α)NRSS=(1α)λ(1α)2(1RSSN)+1NRSS

Podsumowując, 1RSSN=1N(y,y,y-y^,y-y^)0 i jasne jest, że ρ^jot(α) zmniejsza się monotonicznie α i ρ^jot(α)0 tak jak α1.


Epilog : Skoncentruj się na pomysłach tutaj. Tak naprawdę jest tylko jeden. Ortogonalności lemat ma prawie wszystkie prace dla nas. Reszta to tylko algebra, notacja i umiejętność wykorzystania tych dwóch ostatnich do pracy.

kardynał
źródło
2
@cardinal, +1. Odpowiedź jest większa niż pytanie.
mpiktas
@cardinal, możesz zmienić link na Amazon lub inną stronę. Myślę, że linkowanie do pełnej książki może powodować pewne problemy z prawami autorskimi.
mpiktas
3
@mpiktas, nope. Brak problemów z prawami autorskimi. To jest oficjalna strona książki. Autorzy uzyskali zgodę Springera na swobodne udostępnianie pliku PDF online. (Zobacz notatkę na ten temat na stronie.) Myślę, że wpadli na pomysł Stephena Boyda i jego wypukłego tekstu optymalizacyjnego . Mamy nadzieję, że taki trend nabierze rozpędu w ciągu najbliższych kilku lat. Cieszyć się!
kardynał
@cardinal, ooh ogromne dzięki! To jest wielkoduszne od autorów.
mpiktas,
@mpiktas, jest to zdecydowanie najpopularniejsza książka z serii Springer in Statistics. Wygląda dobrze na iPadzie. Co mi przypomina --- powinienem również pobrać na niego tekst Boyda. Twoje zdrowie.
kardynał