Jak interpretować wyniki, gdy zarówno grzbiet, jak i lasso oddzielnie działają dobrze, ale dają różne współczynniki

11

Korzystam z modelu regresji zarówno z Lasso, jak i Ridge'em (aby przewidzieć dyskretną zmienną wyniku w zakresie od 0-5). Przed uruchomieniem modelu używam SelectKBestmetody scikit-learnzmniejszenia zestawu funkcji z 250 do 25 . Bez wstępnego wyboru funkcji, zarówno Lasso, jak i Ridge dają niższe wyniki dokładności [co może wynikać z małej wielkości próbki, 600]. Pamiętaj też, że niektóre funkcje są skorelowane.

Po uruchomieniu modelu obserwuję, że dokładność prognoz jest prawie taka sama w przypadku Lasso i Ridge'a. Jednak gdy sprawdzam pierwsze 10 funkcji po uporządkowaniu ich według bezwzględnej wartości współczynników, widzę, że najwyżej% 50 zachodzi na siebie.

To znaczy, biorąc pod uwagę, że każda metoda przypisuje różne znaczenie cech, mogę mieć zupełnie inną interpretację w zależności od wybranego przeze mnie modelu.

Zwykle funkcje te reprezentują pewne aspekty zachowania użytkownika na stronie internetowej. Dlatego chcę wyjaśnić ustalenia, podkreślając cechy (zachowania użytkownika) o silniejszej zdolności predykcyjnej w porównaniu ze słabszymi cechami (zachowania użytkownika). W tym momencie nie wiem jednak, jak iść naprzód. Jak mam podejść do interpretacji modelu? Na przykład, czy należy połączyć oba elementy i zaznaczyć nakładające się, czy też powinienem iść z Lasso, ponieważ zapewnia on większą interpretację?

renakre
źródło
3
(+1) Regularyzację można postrzegać jako pogarszanie indywidualnych oszacowań współczynników przy jednoczesnym zwiększeniu ich zbiorowych wyników w zakresie przewidywania nowych odpowiedzi. Co dokładnie próbujesz osiągnąć dzięki swojej interpretacji?
Scortchi - Przywróć Monikę
1
@Scortchi dzięki za odpowiedź. Dodałem toNormally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
renakre
3
+1 AFAIK relacja między współczynnikami kalenicy a lambda nie musi być monotoniczna, podczas gdy w lasso jest. Zatem przy pewnych poziomach skurczu bezwzględna wartość współczynników w kalenicy i lasso może się znacznie różnić. Powiedziawszy to, byłbym wdzięczny, gdyby ktoś mógł naszkicować dowód lub krótko wyjaśnić go matematycznie
Łukasz Grad
Upewnij się, że sortujesz współczynniki „beta”. Zobacz stats.stackexchange.com/a/243439/70282 Możesz je zdobyć, szkoląc znormalizowane zmienne lub dostosowując później, jak opisano w łączu.
Chris
1
@ ŁukaszGrad Współczynniki LASSO nie muszą być funkcjami monotonicznymi jeśli predyktory są skorelowane; przykład patrz rysunek 6.6 ISLR . λ
EdM

Odpowiedzi:

7

Regresja kalenicy zachęca do zmniejszenia wszystkich współczynników. Lasso zachęca wiele / większość [**] współczynników do zera, a kilka niezerowych. Oba zmniejszą dokładność zestawu treningowego, ale poprawią przewidywanie w pewien sposób:

  • regresja grzbietu próbuje ulepszyć uogólnienie zestawu testowego, zmniejszając nadmiar
  • lasso zmniejszy liczbę niezerowych współczynników, nawet jeśli obniży to wydajność zarówno zestawu treningowego, jak i testowego

Możesz uzyskać różne możliwości wyboru współczynników, jeśli twoje dane są wysoce skorelowane. Możesz mieć 5 skorelowanych funkcji:

  • przypisując małe, ale niezerowe współczynniki do wszystkich tych funkcji, regresja kalenicy może osiągnąć niską stratę na zestawie treningowym, co może prawdopodobnie uogólnić na zestaw testowy
  • lasso może wybrać tylko jeden z nich, który dobrze koreluje z pozostałymi czterema. i nie ma powodu, dla którego powinien wybrać cechę o najwyższym współczynniku w wersji regresji grzbietu

[*] dla definicji znaczenia „wybierz”: przypisuje niezerowy współczynnik, który wciąż trochę wymachuje ręką, ponieważ współczynniki regresji grzbietu będą miały tendencję do niezerowego, ale np. niektóre mogą być jak 1e-8 , a inne mogą być np. 0,01

[**] niuans: jak zauważa Richard Hardy, dla niektórych przypadków użycia można wybrać wartość co spowoduje, że wszystkie współczynniki LASSO będą niezerowe, ale z pewnym skurczemλ

Hugh Perkins
źródło
Dobre sugestie. Warto sprawdzić macierz korelacji. Nie nakładające się zmienne mogą być wysoce skorelowane.
Chris
3
Dobra odpowiedź! Nie jestem jednak pewien, czy słuszne jest sugerowanie, że ridge ogólnie próbuje poprawić wydajność testu, nie mówiąc tego samego o lasso. Na przykład, jeśli prawdziwy model jest rzadki (i w podzbiorze naszych predyktorów), możemy od razu oczekiwać, że lasso będzie miało lepszą wydajność testową niż grzbiet
795305
Jest to zasada „stawiania na sparingowość”. Na przykład, patrz pierwszy wykres tutaj: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305
2
Porównanie zmiennych wyborów (LASSO) i współczynników regresji wśród wielu próbek danych ładowania początkowego może dobrze zilustrować te problemy. W przypadku skorelowanych predyktorów wybrane przez LASSO z różnych bootstrapów mogą być całkiem różne, zapewniając jednocześnie podobną wydajność predykcyjną. Najlepiej byłoby, gdyby cały proces budowania modelu, w tym początkowa redukcja zestawu funkcji, był powtarzany na wielu bootstrapach, aby udokumentować jakość procesu.
EdM
λ