Założenia LASSO

18

W scenariuszu regresji LASSO, w którym

y=Xβ+ϵ ,

a oszacowania LASSO są podane przez następujący problem optymalizacji

minβ||yXβ||+τ||β||1

Czy są jakieś założenia dystrybucyjne dotyczące ϵ ?

W scenariuszu OLS można oczekiwać, że ϵ są niezależne i zwykle dystrybuowane.

Czy ma sens analiza pozostałości w regresji LASSO?

Wiem, że oszacowanie LASSO można uzyskać jako tryb boczny w ramach niezależnych priory podwójnie wykładniczych dla βj . Ale nie znalazłem żadnej standardowej „fazy sprawdzania założeń”.

Z góry dziękuję (:

deps_stats
źródło

Odpowiedzi:

16

Nie jestem ekspertem od LASSO, ale oto moje zdanie.

Pierwsza uwaga, że ​​OLS jest dość odporny na naruszenia niezależności i normalności. Następnie sądząc z Twierdzenia 7 i dyskusji nad nim w artykule Robust Regression and Lasso (autor: X. Huan, C. Caramanis i S. Mannor), myślę, że w regresji LASSO bardziej nie interesuje nas dystrybucja εi , ale we wspólnym rozkładzie (yi,xi) . Twierdzenie opiera się na założeniu, że (yi,xi) jest próbką, więc jest to porównywalne ze zwykłymi założeniami OLS. Ale LASSO jest mniej restrykcyjne, nie ogranicza generowania yi z modelu liniowego.

Podsumowując, odpowiedź na twoje pierwsze pytanie brzmi: nie. Na nie ma żadnych założeń dystrybucyjnych , wszystkie założenia dystrybucyjne są włączone . Co więcej, są one słabsze, ponieważ w LASSO nic nie jest postulowane co do rozkładu warunkowego .ε(y,X)(y|X)

Powiedziawszy to, odpowiedź na drugie pytanie brzmi: nie. Ponieważ nie odgrywa żadnej roli, nie ma sensu analizować ich tak, jak analizujesz je w OLS (testy normalności, heteroscedastyczność, Durbin-Watson itp.). Powinieneś jednak przeanalizować je w kontekście tego, jak dobre było dopasowanie modelu.ε

mpiktas
źródło