Regresja najmniejszego kąta utrzymuje korelacje monotonicznie malejące i powiązane?

Próbuję rozwiązać problem regresji najmniejszego kąta (LAR). Jest to problem, 3,23 , na stronie 97 w Hastie wsp. Elementy Statistical Learning, 2nd. wyd. (Piąty druk) .

Rozważ problem regresji ze wszystkimi zmiennymi i odpowiedzią mającą średnie zero i odchylenie standardowe jeden. Załóżmy również, że każda zmienna ma identyczną absolutną korelację z odpowiedzią:

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p$

Niech będzie współczynnikiem najmniejszych kwadratów z na i niech dla . $\hat{\beta}$ $\mathbf{y}$ $\mathbf{X}$ $\mathbf{u}(\alpha)=\alpha \bf{X} \hat{\beta}$ $\alpha\in[0,1]$

Poproszono mnie o pokazanie, że i mam z tym problemy. Zauważ, że może to w zasadzie powiedzieć, że korelacje każdego z pozostają równe pod względem wielkości w miarę zbliżania się do .

\frac{1}{N.} | ⟨ x_{jot}, y - u (α) ⟩ | = (1 - α) λ, jot = 1, . . ., p

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y}-u(\alpha) \right \rangle | = (1 - \alpha) \lambda, j = 1, ..., p$

x_{j}

$x_j$

u

$u$

Nie wiem też, jak pokazać, że korelacje są równe:

$\lambda(\alpha) = \frac{(1-\alpha)}{\sqrt{(1-\alpha)^2 + \frac{\alpha (2-\alpha)}{N} \cdot RSS}} \cdot \lambda$

Wszelkie wskazówki będą mile widziane!

regression machine-learning correlation self-study Belmont
źródło

@Belmont, co to jest

u (α)

$u(\alpha)$ ? Czy możesz podać więcej informacji na temat swojego problemu? Na przykład bardzo pomógłby link do artykułu ze standardowymi właściwościami LAR.

mpiktas

@Belmont, To wygląda na problem z Hastie i wsp., Elements of Statistics Learning , 2nd. wyd. Czy to zadanie domowe? Jeśli tak, możesz dodać ten tag.

kardynał

@Belmont, teraz, gdy @cardinal udzielił pełnej odpowiedzi, czy możesz określić, czym tak naprawdę jest LAR, do wglądu w przyszłości? Sądząc z odpowiedzi, jest to standardowa manipulacja produktami regresji najmniejszych kwadratów, biorąc pod uwagę pewne początkowe ograniczenia. Bez poważnego powodu nie powinno być dla niego specjalnej nazwy.

mpiktas

@mpiktas, jest to algorytm stagewise, więc za każdym razem, gdy zmienna wchodzi lub wychodzi z modelu na ścieżce regularyzacji, rozmiar (tj. liczność / wymiar)

β

$\beta$ odpowiednio rośnie lub kurczy się i stosuje się „nowe” oszacowanie LS na podstawie obecnie „aktywnych” zmiennych. W przypadku lasso, które jest problemem optymalizacji wypukłej, procedura polega zasadniczo na wykorzystaniu specjalnej struktury w warunkach KKT w celu uzyskania bardzo skutecznego rozwiązania. Istnieją również uogólnienia dotyczące np. Regresji logistycznej opartej na IRLS i Heine-Borel (aby udowodnić zbieżność w skończonej

liczbie

@Belmont -1, ponieważ niedawno kupiłem książkę Hastie, mogę potwierdzić, że jest to ćwiczenie z niej. Daję ci więc dużą -1, ponieważ nie udaje ci się nawet podać wszystkich definicji, nawet nie mówię o podaniu odniesienia.

mpiktas

Jest to problem, 3,23 , na stronie 97 w Hastie wsp. Elementy Statistical Learning , 2. wyd. (Piąty druk) .

Kluczem do tego problemu jest dobre zrozumienie zwykłych najmniejszych kwadratów (tj. Regresji liniowej), w szczególności ortogonalności dopasowanych wartości i reszt.

Lemat ortogonalności : Niech $X$ być $n \times p$ matryca projektowa, $y$ wektor odpowiedzi i $\beta$ (prawdziwe) parametry. Zarozumiały $X$ szacuje OLS na pełną pozycję (co będziemy przez cały czas) $\beta$ są $\hat{\beta} = (X^T X)^{-1} X^T y$ . Dopasowane wartości to $\hat{y} = X (X^T X)^{-1} X^T y$ . Następnie $\langle \hat{y}, y-\hat{y} \rangle = \hat{y}^T (y - \hat{y}) = 0$ . Oznacza to, że dopasowane wartości są ortogonalne względem reszt. Wynika to później $X^T (y - \hat{y}) = X^T y - X^T X (X^T X)^{-1} X^T y = X^T y - X^T y = 0$ .

Teraz pozwól $x_j$ być wektorem kolumny takim, że $x_j$ jest $j$ kolumna z $X$ . Zakładane warunki to:

$\frac{1}{N} \langle x_j, x_j \rangle = 1$ dla każdego $j$ , $\frac{1}{N} \langle y, y \rangle = 1$ ,
$\frac{1}{N} \langle x_j, 1_p \rangle = \frac{1}{N} \langle y, 1_p \rangle = 0$ gdzie $1_p$ oznacza wektor jedności długości $p$ , i
$\frac{1}{N} | \langle x_j, y \rangle | = \lambda$ dla wszystkich $j$ .

Zwróć uwagę, że w szczególności ostatnie zdanie lematu ortogonalności jest identyczne z $\langle x_j, y - \hat{y} \rangle = 0$ dla wszystkich $j$ .

Korelacje są ze sobą powiązane

Teraz, $u(\alpha) = \alpha X \hat{\beta} = \alpha \hat{y}$ . Więc,

⟨ x_{j}, y - u (a) ⟩ = ⟨ x_{j}, (1 - α) y + α y - α \hat{y} ⟩ = (1 - α) ⟨ x_{j}, y ⟩ + α ⟨ x_{j}, y - \hat{y} ⟩,

$\langle x_j, y - u(a) \rangle = \langle x_j, (1-\alpha) y + \alpha y - \alpha \hat{y} \rangle = (1-\alpha) \langle x_j, y \rangle + \alpha \langle x_j, y - \hat{y} \rangle ,$ a drugi termin po prawej stronie jest równy zero przez lemat ortogonalności , więc

\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ | = (1 - α) λ,

$\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle | = (1-\alpha) \lambda ,$ zgodnie z życzeniem. Bezwzględna wartość korelacji jest sprawiedliwa

{\hat{ρ}}_{j} (α) = \frac{\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ |}{\sqrt{\frac{1}{N} ⟨ x_{j}, x_{j} ⟩} \sqrt{\frac{1}{N} ⟨ y - u (α), y - u (α) ⟩}} = \frac{(1 - α) λ}{\sqrt{\frac{1}{N} ⟨ y - u (α), y - u (α) ⟩}}

$\hat{\rho}_j(\alpha) = \frac{\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle |}{\sqrt{\frac{1}{N} \langle x_j, x_j \rangle }\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }} = \frac{(1-\alpha)\lambda}{\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }}$

Uwaga : prawa strona powyżej jest niezależna od $j$ a licznik jest taki sam jak kowariancja, ponieważ przyjęliśmy, że wszystkie $x_j$ i $y$ są wyśrodkowane (w szczególności nie jest konieczne odejmowanie średniej).

Jaki jest sens? Tak jak $\alpha$ zwiększa wektor odpowiedzi jest modyfikowany w taki sposób, że zbliża się do rozwiązania ( ograniczonego! ) rozwiązania najmniejszych kwadratów uzyskanego z włączenia tylko pierwszego $p$ parametry w modelu. To jednocześnie modyfikuje oszacowane parametry, ponieważ są one prostymi produktami wewnętrznymi predyktorów z (zmodyfikowanym) wektorem odpowiedzi. Modyfikacja ma jednak specjalną formę. Utrzymuje (wielkość) korelacji między predyktorami a zmodyfikowaną odpowiedzią w tym samym czasie w całym procesie (nawet jeśli zmienia się wartość korelacji). Pomyśl o tym, co robi to geometrycznie, a zrozumiesz nazwę procedury!

Jawna forma (absolutnej) korelacji

Skupmy się na wyrażeniu w mianowniku, ponieważ licznik jest już w wymaganej formie. Mamy

⟨ y - u (α), y - u (α) ⟩ = ⟨ (1 - α) y + α y - u (α), (1 - α) y + α y - u (α) ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = \langle (1-\alpha) y + \alpha y - u(\alpha), (1-\alpha) y + \alpha y - u(\alpha) \rangle .$

Zastępowanie w $u(\alpha) = \alpha \hat{y}$ i używając liniowości wewnętrznego produktu, otrzymujemy

⟨ y - u (α), y - u (α) ⟩ = (1 - α)^{2} ⟨ y, y ⟩ + 2 α (1 - α) ⟨ y, y - \hat{y} ⟩ + α^{2} ⟨ y - \hat{y}, y - \hat{y} ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = (1-\alpha)^2 \langle y, y \rangle + 2\alpha(1-\alpha) \langle y, y - \hat{y} \rangle + \alpha^2 \langle y-\hat{y}, y-\hat{y} \rangle .$

Obseruj to

$\langle y, y \rangle = N$ z założenia
$\langle y, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y} \rangle + \langle \hat{y}, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y}\rangle$ , poprzez zastosowanie lematu ortogonalności (jeszcze raz) do drugiego wyrażenia w środku; i,
$\langle y - \hat{y}, y - \hat{y} \rangle = \mathrm{RSS}$ zgodnie z definicją.

Podsumowując, zauważysz, że otrzymamy

{\hat{ρ}}_{j} (α) = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} + \frac{α (2 - α)}{N} R S S}} = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} (1 - \frac{R S S}{N}) + \frac{1}{N} R S S}}

$\hat{\rho}_j(\alpha) = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 + \frac{\alpha(2-\alpha)}{N} \mathrm{RSS}}} = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 (1 - \frac{\mathrm{RSS}}{N}) + \frac{1}{N} \mathrm{RSS}}}$

Podsumowując, $1 - \frac{\mathrm{RSS}}{N} = \frac{1}{N} (\langle y, y, \rangle - \langle y - \hat{y}, y - \hat{y} \rangle ) \geq 0$ i jasne jest, że $\hat{\rho}_j(\alpha)$ zmniejsza się monotonicznie $\alpha$ i $\hat{\rho}_j(\alpha) \downarrow 0$ tak jak $\alpha \uparrow 1$ .

Epilog : Skoncentruj się na pomysłach tutaj. Tak naprawdę jest tylko jeden. Ortogonalności lemat ma prawie wszystkie prace dla nas. Reszta to tylko algebra, notacja i umiejętność wykorzystania tych dwóch ostatnich do pracy.

kardynał
źródło

@cardinal, +1. Odpowiedź jest większa niż pytanie.

mpiktas

@cardinal, możesz zmienić link na Amazon lub inną stronę. Myślę, że linkowanie do pełnej książki może powodować pewne problemy z prawami autorskimi.

mpiktas

@mpiktas, nope. Brak problemów z prawami autorskimi. To jest oficjalna strona książki. Autorzy uzyskali zgodę Springera na swobodne udostępnianie pliku PDF online. (Zobacz notatkę na ten temat na stronie.) Myślę, że wpadli na pomysł Stephena Boyda i jego wypukłego tekstu optymalizacyjnego . Mamy nadzieję, że taki trend nabierze rozpędu w ciągu najbliższych kilku lat. Cieszyć się!

kardynał

@cardinal, ooh ogromne dzięki! To jest wielkoduszne od autorów.

mpiktas,

@mpiktas, jest to zdecydowanie najpopularniejsza książka z serii Springer in Statistics. Wygląda dobrze na iPadzie. Co mi przypomina --- powinienem również pobrać na niego tekst Boyda. Twoje zdrowie.

kardynał

Regresja najmniejszego kąta utrzymuje korelacje monotonicznie malejące i powiązane?

Odpowiedzi: