Próbuję rozwiązać problem regresji najmniejszego kąta (LAR). Jest to problem, 3,23 , na stronie 97 w Hastie wsp. Elementy Statistical Learning, 2nd. wyd. (Piąty druk) .
Rozważ problem regresji ze wszystkimi zmiennymi i odpowiedzią mającą średnie zero i odchylenie standardowe jeden. Załóżmy również, że każda zmienna ma identyczną absolutną korelację z odpowiedzią:
Niech będzie współczynnikiem najmniejszych kwadratów z na i niech dla .
Poproszono mnie o pokazanie, że i mam z tym problemy. Zauważ, że może to w zasadzie powiedzieć, że korelacje każdego z pozostają równe pod względem wielkości w miarę zbliżania się do .
Nie wiem też, jak pokazać, że korelacje są równe:
Wszelkie wskazówki będą mile widziane!
Odpowiedzi:
Jest to problem, 3,23 , na stronie 97 w Hastie wsp. Elementy Statistical Learning , 2. wyd. (Piąty druk) .
Kluczem do tego problemu jest dobre zrozumienie zwykłych najmniejszych kwadratów (tj. Regresji liniowej), w szczególności ortogonalności dopasowanych wartości i reszt.
Lemat ortogonalności : NiechX być n×p matryca projektowa, y wektor odpowiedzi i β (prawdziwe) parametry. ZarozumiałyX szacuje OLS na pełną pozycję (co będziemy przez cały czas) β są β^=(XTX)−1XTy . Dopasowane wartości toy^=X(XTX)−1XTy . Następnie⟨y^,y−y^⟩=y^T(y−y^)=0 . Oznacza to, że dopasowane wartości są ortogonalne względem reszt. Wynika to późniejXT.( y-y^) =XT.y-XT.X(XT.X)- 1XT.y=XT.y-XT.y= 0 .
Teraz pozwólxjot być wektorem kolumny takim, że xjot jest jot kolumna z X . Zakładane warunki to:
Zwróć uwagę, że w szczególności ostatnie zdanie lematu ortogonalności jest identyczne z⟨xj,y−y^⟩=0 dla wszystkich j .
Korelacje są ze sobą powiązane
Teraz,u(α)=αXβ^=αy^ . Więc,
Uwaga : prawa strona powyżej jest niezależna odj a licznik jest taki sam jak kowariancja, ponieważ przyjęliśmy, że wszystkie xj i y są wyśrodkowane (w szczególności nie jest konieczne odejmowanie średniej).
Jaki jest sens? Tak jakα zwiększa wektor odpowiedzi jest modyfikowany w taki sposób, że zbliża się do rozwiązania ( ograniczonego! ) rozwiązania najmniejszych kwadratów uzyskanego z włączenia tylko pierwszegop parametry w modelu. To jednocześnie modyfikuje oszacowane parametry, ponieważ są one prostymi produktami wewnętrznymi predyktorów z (zmodyfikowanym) wektorem odpowiedzi. Modyfikacja ma jednak specjalną formę. Utrzymuje (wielkość) korelacji między predyktorami a zmodyfikowaną odpowiedzią w tym samym czasie w całym procesie (nawet jeśli zmienia się wartość korelacji). Pomyśl o tym, co robi to geometrycznie, a zrozumiesz nazwę procedury!
Jawna forma (absolutnej) korelacji
Skupmy się na wyrażeniu w mianowniku, ponieważ licznik jest już w wymaganej formie. Mamy
Zastępowanie wu(α)=αy^ i używając liniowości wewnętrznego produktu, otrzymujemy
Obseruj to
Podsumowując, zauważysz, że otrzymamy
Podsumowując,1−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0 i jasne jest, że ρ^jot( α ) zmniejsza się monotonicznie α i ρ^jot( α ) ↓ 0 tak jak α ↑ 1 .
Epilog : Skoncentruj się na pomysłach tutaj. Tak naprawdę jest tylko jeden. Ortogonalności lemat ma prawie wszystkie prace dla nas. Reszta to tylko algebra, notacja i umiejętność wykorzystania tych dwóch ostatnich do pracy.
źródło