Czy normalizacja przed Lasso jest naprawdę konieczna?

28

Przeczytałem trzy główne powody standaryzacji zmiennych przed czymś takim jak Lassoregresja:

1) Interpretowalność współczynników.

2) Możliwość uszeregowania znaczenia współczynnika według względnej wielkości oszacowań współczynnika skurczu.

3) Nie ma potrzeby przechwytywania.

Ale zastanawiam się nad najważniejszą kwestią. Czy mamy powody sądzić, że standaryzacja poprawiłaby generalizację modelu poza próbą? Nie obchodzi mnie też, czy nie potrzebuję przechwytywania w moim modelu; dodanie jednego mnie nie rani.

Jase
źródło
1
Wyjaśnienie: wydaje się, że chcesz zapytać: „Pod warunkiem, że standaryzacja jest opcjonalna (jeden ze specjalnych przypadków, w których wyniki nie są wypaczone o różne wielkości), to czy normalizacja poprawi uogólnienie poza próbą?” Czy to jest poprawne?
Drew75
@ Drew75 Wolę podział przypadków, np. Czy pomaga, gdy wyniki są „wypaczane o różne wielkości”, czy pomaga, gdy wyniki nie są wypaczane, itd., Najlepsza odpowiedź obejmie różne sytuacje.
Jase
1
Zatem twoje pytanie nie dotyczy Lasso (ponieważ ogólnie standaryzacja jest konieczna przed Lasso). To jest bardziej ogólne. Być może zmień tytuł i pierwsze zdanie pytania.
Drew75
@Drew: To raczej pytania: dlaczego jest to konieczne (kiedy nie jest?)? Co oznacza przekrzywienie wyników (w porównaniu do czego?)? Myślę, że pytanie jest w porządku na obecnym etapie.
Scortchi - Przywróć Monikę
@ Drew75 Moje pytanie dotyczy Lassa.
Jase

Odpowiedzi:

21

Regresja Lasso nakłada ograniczenia na wielkość współczynników powiązanych z każdą zmienną. Jednak ta wartość będzie zależeć od wielkości każdej zmiennej. Dlatego konieczne jest wyśrodkowanie i zmniejszenie lub standaryzacja zmiennych.

Wynik centrowania zmiennych oznacza, że ​​nie ma już przecięcia. Nawiasem mówiąc, dotyczy to również regresji grzbietu.

Innym dobrym wyjaśnieniem jest ten post: Potrzeba centrowania i standaryzacji danych w regresji

Drew75
źródło
To nie jest ani odpowiedź, ani skrajnie pośrednia odpowiedź na moje pytanie. Proszę wyjaśnić związek między odpowiedzią a uogólnieniem nieobjętym próbą (co było pytaniem).
Jase
10
@Jase: Zajmuje się głównym powodem standaryzacji, który pominąłeś na liście: jeśli chcesz upuścić predyktory o małych współczynnikach (lub w inny sposób użyć kary umownej w zależności od wielkości współczynnika), musisz zdecydować, co się liczy jako „małe „. Chociaż standaryzacja nie jest obowiązkowa przed LASSO lub innymi metodami regresji karnej, rzadko zdarza się, że oryginalne skale, w których mierzy się predyktory, są przydatne do tego celu.
Scortchi - Przywróć Monikę
3
Chodzi o to, że centrowanie jest takie, że zwykle nie chcesz upuszczać ani zmniejszać punktu przecięcia.
Scortchi - Przywróć Monikę
2
λ jest parametrem skurczu). To, czy oszacowanie współczynnika należy do najmniejszych (niezależnie od tego, czy wybierzesz \ lambda $), zależy od tego, czy jest mierzone w kilometrach, mikrometrach, czy nie. standardowe odchylenia od średniej wartości w próbce lub innej jednostce. Z punktu widzenia bayesowskiego stawiasz słabo informatywne priory w stosunku do prawdziwych wartości współczynników, a nie niedoinformujących.
Scortchi - Przywróć Monikę
2
Bardzo szeroko, ile kurczą ogólnie wpłynie uogólnienie losowych próbek hold-out; nieco arbitralna decyzja, jak bardzo zmniejszyć każdy predyktor w stosunku do innych, wpłynie na uogólnienie na nowe próbki z podobnych populacji, gdzie współczynniki są nieco inne, a rozkład predyktorów niekoniecznie jest taki sam w zestawie treningowym , i c. (Oczywiście twoje pytanie zasługuje na bardziej przemyślaną odpowiedź.)
Scortchi - Przywróć Monikę
2

Parametr karny L1 jest sumą bezwzględnych warunków beta. Jeśli wszystkie zmienne mają różną wymiarowość, to ten termin tak naprawdę nie jest addytywny, chociaż matematycznie nie ma błędu.

Jednak nie widzę atrap zmiennych / zmiennych kategorialnych cierpiących na ten problem i uważam, że nie trzeba ich standaryzować. ich standaryzacja może po prostu zmniejszyć interpretowalność zmiennych

Sumit Dhar
źródło