Przeczytałem trzy główne powody standaryzacji zmiennych przed czymś takim jak Lasso
regresja:
1) Interpretowalność współczynników.
2) Możliwość uszeregowania znaczenia współczynnika według względnej wielkości oszacowań współczynnika skurczu.
3) Nie ma potrzeby przechwytywania.
Ale zastanawiam się nad najważniejszą kwestią. Czy mamy powody sądzić, że standaryzacja poprawiłaby generalizację modelu poza próbą? Nie obchodzi mnie też, czy nie potrzebuję przechwytywania w moim modelu; dodanie jednego mnie nie rani.
Odpowiedzi:
Regresja Lasso nakłada ograniczenia na wielkość współczynników powiązanych z każdą zmienną. Jednak ta wartość będzie zależeć od wielkości każdej zmiennej. Dlatego konieczne jest wyśrodkowanie i zmniejszenie lub standaryzacja zmiennych.
Wynik centrowania zmiennych oznacza, że nie ma już przecięcia. Nawiasem mówiąc, dotyczy to również regresji grzbietu.
Innym dobrym wyjaśnieniem jest ten post: Potrzeba centrowania i standaryzacji danych w regresji
źródło
Parametr karny L1 jest sumą bezwzględnych warunków beta. Jeśli wszystkie zmienne mają różną wymiarowość, to ten termin tak naprawdę nie jest addytywny, chociaż matematycznie nie ma błędu.
Jednak nie widzę atrap zmiennych / zmiennych kategorialnych cierpiących na ten problem i uważam, że nie trzeba ich standaryzować. ich standaryzacja może po prostu zmniejszyć interpretowalność zmiennych
źródło