Załóżmy, że chcę cofnąć względem znormalizowanego , ale chciałbym rzadkie rozwiązanie. Dlaczego po regresji niedozwolone jest odrzucanie współczynników o najmniejszej wielkości?
Dla przypomnienia, słyszałem i często używam metod LARS i LASSO. Jestem tylko ciekawy, dlaczego powyższe podejście nie ma zastosowania.
regression
regression-coefficients
Cam.Davidson.Pilon
źródło
źródło
Odpowiedzi:
Nie byłoby problemu, gdyby był ortonormalny. Jednak możliwość silnej korelacji między zmiennymi objaśniającymi powinna nas zatrzymać.X
Jeśli weźmiesz pod uwagę geometryczną interpretację regresji metodą najmniejszych kwadratów , łatwo jest uzyskać kontrprzykłady. Weźmy aby mieć, powiedzmy, prawie normalnie rozłożone współczynniki, a X 2 prawie równolegle do niego. Niech X 3 będzie prostopadły do płaszczyzny generowanej przez X 1 i X 2 . Można wyobrazić sobie Y , który jest zasadniczo w X 3 kierunku, lecz jest przesunięta stosunkowo niewielką ilość od początku w X 1 , X 2 płaskiej. Ponieważ X 1 iX1 X2 X3 X1 X2 Y X3 X1,X2 X1 są prawie równoległe, jego komponenty w tej płaszczyźnie mogą mieć duże współczynniki, powodując upuszczenie X 3 , co byłoby ogromnym błędem.X2 X3
Geometrię można odtworzyć za pomocą symulacji, takiej jak ta przeprowadzona przez te
R
obliczenia:Wariancji z są wystarczająco blisko do 1 , że możemy kontrolować współczynniki pasuje jako proxy dla standaryzowanych współczynników. W pełnym modelu współczynniki wynoszą 0,99, -0,99 i 0,1 (wszystkie bardzo znaczące), przy czym najmniejsze (jak dotąd) związane z X 3 , z założenia. Resztkowy błąd standardowy wynosi 0,00498. W modelu zredukowanym („rzadkim”) resztkowy błąd standardowy, wynoszący 0,09803, jest 20 razy większy: ogromny wzrost, odzwierciedlający utratę prawie wszystkich informacji o Y po upuszczeniu zmiennej o najmniejszym znormalizowanym współczynniku. R 2 spadła z 0,9975Xi 1 X3 20 Y R2 0.9975 prawie do zera. Żaden ze współczynników nie jest znaczący na poziomie lepszym niż .0.38
Macierz scatterplot ujawnia wszystkie:
Silna korelacja między i y wynika z liniowego wyrównania punktów w prawym dolnym rogu. Słaba korelacja między x 1 i y oraz x 2 i y jest równie wyraźna z rozproszenia kołowego w innych panelach. Niemniej jednak najmniejszy znormalizowany współczynnik należy raczej do x 3 niż do x 1 lub x 2 .x3 y x1 y x2 y x3 x1 x2
źródło
Wydaje mi się, że jeśli szacowany współczynnik jest bliski 0, a dane są znormalizowane, przewidywania nie zaszkodzi odrzucenie zmiennej. Z pewnością gdyby współczynnik nie był statystycznie istotny, nie byłoby problemu. Ale należy to zrobić ostrożnie. IV mogą być skorelowane, a usunięcie jednego może zmienić współczynniki innych. Staje się to bardziej niebezpieczne, jeśli zaczniesz przeszukiwać kilka zmiennych w ten sposób. Procedury wyboru podzbiorów opracowano w celu uniknięcia takich problemów i zastosowania rozsądnych kryteriów włączania i wyłączania zmiennych. Jeśli zapytasz Franka Harrella, byłby przeciwny procedurze stopniowej. Wspominasz LARS i LASSO, które są dwiema bardzo nowoczesnymi metodami. Istnieje jednak wiele innych, w tym kryteria informacyjne, które usprawniają wprowadzenie zbyt wielu zmiennych.
Jeśli spróbujesz procedury selekcji podzbiorów, która została dokładnie przestudiowana z dużą ilością literatury na jej temat, prawdopodobnie okaże się, że doprowadzi to do rozwiązania, które przywróci zmienne o małych współczynnikach, zwłaszcza jeśli nie przejdą testu statystycznie istotnie różnego od 0.
źródło