Przejrzyste wyjaśnienie „stabilności numerycznej inwersji macierzy” w regresji grzbietu i jej roli w zmniejszaniu przeładowania

Rozumiem, że możemy zastosować regularyzację w przypadku problemu regresji metodą najmniejszych kwadratów jako

w^{*} = \underset{w}{argmin} [(y - X w)^{T} (y - X w) + λ ‖ w ‖^{2}]

$\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right]$

i że ten problem ma rozwiązanie zamknięte, ponieważ:

\hat{w} = (X^{T} X + λ I)^{- 1} X^{T} y .

$\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}.$

Widzimy, że w drugim równaniu regularyzacja po prostu dodaje $\lambda$ do przekątnej $\boldsymbol{X}^T\boldsymbol{X}$ , co ma na celu poprawę stabilności liczbowej odwrócenia macierzy.

Moje obecne „prymitywne” rozumienie stabilności numerycznej jest takie, że jeśli funkcja stanie się bardziej „stabilna numerycznie”, wówczas na jej wynik mniejszy wpływ będzie miał szum na wejściu. Mam trudności z powiązaniem tej koncepcji ulepszonej stabilności numerycznej z szerszym obrazem tego, w jaki sposób unika ona / zmniejsza problem nadmiernego dopasowania.

Próbowałem spojrzeć na Wikipedię i kilka innych witryn uniwersyteckich, ale nie wyjaśniają, dlaczego tak jest.

regression regularization ridge-regression overfitting matrix-inverse początkujący
źródło

Przychodzi na myśl regresja kalenicy. link

EngrStudent

Możesz znaleźć pewną wartość w dyskusji (głównie opisowej / intuicyjnej zamiast algebraicznej) w Dlaczego szacowanie grzbietu staje się lepsze niż OLS przez dodanie stałej do przekątnej?

Glen_b

Odpowiedzi:

W modelu liniowym , zakładając nieskorelowane błędy ze średnim zerem i o pełnej pozycji kolumny, estymator najmniejszych kwadratów jest estymatorem obiektywnym dla parametru . Jednak estymator ten może mieć dużą wariancję. Na przykład, gdy dwie kolumny są wysoce skorelowane. $Y=X\beta + \epsilon$ $X$ $(X^TX)^{-1}X^TY$ $\beta$ $X$

Parametr kary czyni stronniczym estymatorem , ale zmniejsza jego wariancję. Ponadto jest późniejszym oczekiwaniem na w regresji bayesowskiej z przed . W tym sensie uwzględniamy w analizie pewne informacje, które mówią, że składniki nie powinny być zbyt daleko od zera. Ponownie prowadzi nas to do stronniczego oszacowania ale zmniejsza wariancję oszacowania. $\lambda$ $\hat{w}$ $\beta$ $\hat{w}$ $\beta$ $N(0,\frac{1}{\lambda}I)$ $\beta$ $\beta$ $\beta$

W ustawieniu, w którym wymiarowy, powiedzmy , dopasowanie najmniejszych kwadratów będzie pasowało do danych prawie idealnie. Chociaż obiektywne, szacunki te będą bardzo wrażliwe na wahania danych, ponieważ w tak dużych wymiarach będzie wiele punktów o dużej dźwigni. W takich sytuacjach znak niektórych składników można ustalić na podstawie pojedynczej obserwacji. Kara umowna powoduje zmniejszenie tych oszacowań do zera, co może zmniejszyć MSE estymatora poprzez zmniejszenie wariancji. $X$ $N \approx p$ $\hat{\beta}$

Edycja: W pierwszej odpowiedzi podałem link do odpowiedniego artykułu i pośpiesznie go usunąłem. Oto on: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf

HStamper
źródło

W obecnej formie jest to bardziej komentarz; myślisz, że mógłbyś udzielić merytorycznej odpowiedzi?

Silverfish,

Dół p. 5 prawo / góra str. Pozostało 6, odnoszących się do Ryc. 3, zawiera kluczową dyskusję na pytanie zadane w tym poście.

Mark L. Stone

To wszystko jest prawidłowe, ale nie jestem pewien, czy odpowiada na pytanie PO.

ameba

ameba, patrz mój komentarz powyżej, który odnosi się do linku, który został później zredagowany z odpowiedzi Erica Mittmana, jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .

Mark L. Stone

Stabilność numeryczna i nadmierne dopasowanie są w pewnym sensie powiązane, ale różne są kwestie.

Klasyczny problem OLS:

Rozważ klasyczny problem najmniejszych kwadratów:

minimize (over b) (y - X b)^{T} (y - X b)

$\operatorname*{minimize}(\text{over $\mathbf{b}$}) \quad(\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b})$

Rozwiązaniem jest klasyczny . Chodzi o to, że według prawa wielkich liczb: $\hat{\mathbf{b}} = (X'X)^{-1}(X'\mathbf{y})$

lim_{n \to \infty} \frac{1}{n} X^{'} X \to E [x x^{'}] lim_{n \to \infty} \frac{1}{n} X^{'} y \to E [x y]

$\lim_{n \rightarrow \infty} \frac{1}{n} X'X \rightarrow \mathrm{E}[\mathbf{x}\mathbf{x}'] \quad \quad \quad \lim_{n \rightarrow \infty} \frac{1}{n} X'\mathbf{y} \rightarrow \mathrm{E}[\mathbf{x}y]$

Stąd szacunek OLS również zbiega się z . (W kategoriach algebry liniowej jest to rzut liniowy zmiennej losowej na rozpiętość liniową zmiennych losowych .) $\hat{\mathbf{b}}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']^{-1}\mathrm{E}[\mathbf{x}y]$ $y$ $x_1, x_2, \ldots, x_k$

Problemy?

Mechanicznie, co może pójść nie tak? Jakie są możliwe problemy?

W przypadku małych próbek nasze szacunkowe próbki i mogą być słabe. $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$
Jeśli kolumny są współliniowe (z powodu nieodłącznej kolinearności lub małej wielkości próbki), problem będzie miał ciąg rozwiązań! Rozwiązanie może nie być unikalne.
- Dzieje się tak, jeśli ma niedobór rangi. $\mathrm{E}[\mathbf{x}\mathbf{x}']$
- Dzieje się tak również wtedy, gdy ma niedobór rangi z powodu małej wielkości próby w stosunku do liczby problemów z regresorem. $X'X$

Problem (1) może prowadzić do przeuczenia, ponieważ oszacowanie zaczyna odzwierciedlać wzorce w próbie, których nie ma w populacji podstawowej. Oszacowanie może odzwierciedlać wzorce w i , które tak naprawdę nie istnieją w i $\hat{\mathbf{b}}$ $\frac{1}{n}X'X$ $\frac{1}{n}X'\mathbf{y}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$

Problem (2) oznacza, że rozwiązanie nie jest unikalne. Wyobraź sobie, że próbujemy oszacować cenę poszczególnych butów, ale pary butów są zawsze sprzedawane razem. To źle postawiony problem, ale powiedzmy, że i tak to robimy. Możemy wierzyć, że cena lewego buta plus cena prawego buta wynosi 50 , ale jak możemy wymyślić indywidualne ceny? Czy ustawienie ceny lewego buta i ceny prawego buta porządku? Jak możemy wybierać spośród wszystkich możliwości? $p_l = 45$ $p_r = 5$

Przedstawiamy karę : $L_2$

Teraz rozważ:

minimize (over b) (y - X b)^{T} (y - X b) + λ ‖ b ‖^{2}

$\operatorname*{minimize}(\text{over }\mathbf{b})\quad (\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b}) + \lambda\|\boldsymbol{b}\|^2$

Może to nam pomóc w przypadku obu rodzajów problemów. kara popycha naszą oszacowania do zera. Działa to skutecznie jako bayesowski, zanim rozkład wartości wartości współczynników zostanie wyśrodkowany wokół . To pomaga w przeuczeniu. Nasze szacunki odzwierciedlą zarówno dane, jak i nasze początkowe przekonania, że jest bliski zeru. $L_2$ $\mathbf{b}$ $\mathbf{0}$ $\mathbf{b}$

$L_2$ również zawsze pozwala nam znaleźć unikalne rozwiązanie źle postawionych problemów. Jeśli znamy cenę lewych i prawych butów łącznie na , rozwiązaniem, które minimalizuje również normę jest wybranie . $\$50$ $L_2$ $p_l = p_r = 25$

Czy to magia? Nie. Regularyzacja to nie to samo, co dodawanie danych, które faktycznie pozwoliłyby nam odpowiedzieć na pytanie. w pewnym sensie przyjmuje pogląd, że jeśli brakuje danych, wybierz oszacowania bliższe . $L_2$ $0$

Matthew Gunn
źródło

Przejrzyste wyjaśnienie „stabilności numerycznej inwersji macierzy” w regresji grzbietu i jej roli w zmniejszaniu przeładowania

Odpowiedzi:

Klasyczny problem OLS:

Problemy?

Przedstawiamy karę :L2L2L_2

Przedstawiamy karę : $L_2$