Korzystam z modelu regresji zarówno z Lasso, jak i Ridge'em (aby przewidzieć dyskretną zmienną wyniku w zakresie od 0-5). Przed uruchomieniem modelu używam SelectKBest
metody scikit-learn
zmniejszenia zestawu funkcji z 250 do 25 . Bez wstępnego wyboru funkcji, zarówno Lasso, jak i Ridge dają niższe wyniki dokładności [co może wynikać z małej wielkości próbki, 600]. Pamiętaj też, że niektóre funkcje są skorelowane.
Po uruchomieniu modelu obserwuję, że dokładność prognoz jest prawie taka sama w przypadku Lasso i Ridge'a. Jednak gdy sprawdzam pierwsze 10 funkcji po uporządkowaniu ich według bezwzględnej wartości współczynników, widzę, że najwyżej% 50 zachodzi na siebie.
To znaczy, biorąc pod uwagę, że każda metoda przypisuje różne znaczenie cech, mogę mieć zupełnie inną interpretację w zależności od wybranego przeze mnie modelu.
Zwykle funkcje te reprezentują pewne aspekty zachowania użytkownika na stronie internetowej. Dlatego chcę wyjaśnić ustalenia, podkreślając cechy (zachowania użytkownika) o silniejszej zdolności predykcyjnej w porównaniu ze słabszymi cechami (zachowania użytkownika). W tym momencie nie wiem jednak, jak iść naprzód. Jak mam podejść do interpretacji modelu? Na przykład, czy należy połączyć oba elementy i zaznaczyć nakładające się, czy też powinienem iść z Lasso, ponieważ zapewnia on większą interpretację?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
Odpowiedzi:
Regresja kalenicy zachęca do zmniejszenia wszystkich współczynników. Lasso zachęca wiele / większość [**] współczynników do zera, a kilka niezerowych. Oba zmniejszą dokładność zestawu treningowego, ale poprawią przewidywanie w pewien sposób:
Możesz uzyskać różne możliwości wyboru współczynników, jeśli twoje dane są wysoce skorelowane. Możesz mieć 5 skorelowanych funkcji:
[*] dla definicji znaczenia „wybierz”: przypisuje niezerowy współczynnik, który wciąż trochę wymachuje ręką, ponieważ współczynniki regresji grzbietu będą miały tendencję do niezerowego, ale np. niektóre mogą być jak 1e-8 , a inne mogą być np. 0,01
[**] niuans: jak zauważa Richard Hardy, dla niektórych przypadków użycia można wybrać wartość co spowoduje, że wszystkie współczynniki LASSO będą niezerowe, ale z pewnym skurczemλ
źródło