Rzadkość poprzez odrzucenie współczynnika najmniejszych kwadratów

14

Załóżmy, że chcę cofnąć względem znormalizowanego , ale chciałbym rzadkie rozwiązanie. Dlaczego po regresji niedozwolone jest odrzucanie współczynników o najmniejszej wielkości? $Y$ $X$

Dla przypomnienia, słyszałem i często używam metod LARS i LASSO. Jestem tylko ciekawy, dlaczego powyższe podejście nie ma zastosowania.

regression regression-coefficients Cam.Davidson.Pilon
źródło

2

+1 Te proste pytania mogą być trudne - zmuszają do intensywnego myślenia o podstawowych pojęciach.

whuber

14

Nie byłoby problemu, gdyby był ortonormalny. Jednak możliwość silnej korelacji między zmiennymi objaśniającymi powinna nas zatrzymać. $X$

Jeśli weźmiesz pod uwagę geometryczną interpretację regresji metodą najmniejszych kwadratów , łatwo jest uzyskać kontrprzykłady. Weźmy aby mieć, powiedzmy, prawie normalnie rozłożone współczynniki, a prawie równolegle do niego. Niech będzie prostopadły do płaszczyzny generowanej przez i . Można wyobrazić sobie , który jest zasadniczo w kierunku, lecz jest przesunięta stosunkowo niewielką ilość od początku w płaskiej. Ponieważ i $X_1$ $X_2$ $X_3$ $X_1$ $X_2$ $Y$ $X_3$ $X_1,X_2$ $X_1$ są prawie równoległe, jego komponenty w tej płaszczyźnie mogą mieć duże współczynniki, powodując upuszczenie , co byłoby ogromnym błędem. $X_2$ $X_3$

Geometrię można odtworzyć za pomocą symulacji, takiej jak ta przeprowadzona przez te Robliczenia:

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

Wariancji z są wystarczająco blisko do , że możemy kontrolować współczynniki pasuje jako proxy dla standaryzowanych współczynników. W pełnym modelu współczynniki wynoszą 0,99, -0,99 i 0,1 (wszystkie bardzo znaczące), przy czym najmniejsze (jak dotąd) związane z , z założenia. Resztkowy błąd standardowy wynosi 0,00498. W modelu zredukowanym („rzadkim”) resztkowy błąd standardowy, wynoszący 0,09803, jest razy większy: ogromny wzrost, odzwierciedlający utratę prawie wszystkich informacji o po upuszczeniu zmiennej o najmniejszym znormalizowanym współczynniku. spadła z $X_i$ $1$ $X_3$ $20$ $Y$ $R^2$ $0.9975$ prawie do zera. Żaden ze współczynników nie jest znaczący na poziomie lepszym niż . $0.38$

Macierz scatterplot ujawnia wszystkie:

Macierz rozrzutu x1, x2, x3 i y

Silna korelacja między i wynika z liniowego wyrównania punktów w prawym dolnym rogu. Słaba korelacja między i oraz i jest równie wyraźna z rozproszenia kołowego w innych panelach. Niemniej jednak najmniejszy znormalizowany współczynnik należy raczej do niż do lub . $x_3$ $y$ $x_1$ $y$ $x_2$ $y$ $x_3$ $x_1$ $x_2$

Whuber
źródło

2

Wydaje mi się, że jeśli szacowany współczynnik jest bliski 0, a dane są znormalizowane, przewidywania nie zaszkodzi odrzucenie zmiennej. Z pewnością gdyby współczynnik nie był statystycznie istotny, nie byłoby problemu. Ale należy to zrobić ostrożnie. IV mogą być skorelowane, a usunięcie jednego może zmienić współczynniki innych. Staje się to bardziej niebezpieczne, jeśli zaczniesz przeszukiwać kilka zmiennych w ten sposób. Procedury wyboru podzbiorów opracowano w celu uniknięcia takich problemów i zastosowania rozsądnych kryteriów włączania i wyłączania zmiennych. Jeśli zapytasz Franka Harrella, byłby przeciwny procedurze stopniowej. Wspominasz LARS i LASSO, które są dwiema bardzo nowoczesnymi metodami. Istnieje jednak wiele innych, w tym kryteria informacyjne, które usprawniają wprowadzenie zbyt wielu zmiennych.

Jeśli spróbujesz procedury selekcji podzbiorów, która została dokładnie przestudiowana z dużą ilością literatury na jej temat, prawdopodobnie okaże się, że doprowadzi to do rozwiązania, które przywróci zmienne o małych współczynnikach, zwłaszcza jeśli nie przejdą testu statystycznie istotnie różnego od 0.

Michael R. Chernick
źródło

Rzadkość poprzez odrzucenie współczynnika najmniejszych kwadratów

Odpowiedzi: