Poniżej znajduje się wykres glmnet z domyślną wartością alfa (1, stąd lasso) przy użyciu mtcars
zestawu danych w R mpg
jako DV i innych jako zmiennych predykcyjnych.
glmnet(as.matrix(mtcars[-1]), mtcars[,1])
Co możemy wywnioskować z tej działki dotyczące różnych zmiennych, zwłaszcza am
, cyl
i wt
(czerwone, czarne i jasne niebieskie linie)? Jak sformułujemy wynik w raporcie, który zostanie opublikowany?
Myślałem o:
wt
jest najważniejszym predyktoremmpg
. To negatywnie wpływa nampg
.cyl
jest słabym predyktorem ujemnymmpg
.am
może być pozytywnym predyktoremmpg
.Inne zmienne nie są niezawodnymi predyktorami
mpg
.
Dziękuję za twoje przemyślenia na ten temat.
(Uwaga: cyl
to czarna linia, która nie osiąga wartości 0, dopóki nie będzie bardzo blisko niej.)
Edycja: Poniżej znajduje się wykres (mod, xvar = 'lambda'), który pokazuje oś x w kolejności odwrotnej do powyższej wykresu:
(PS: Jeśli uznasz to pytanie za interesujące / ważne, oceń je;)
-1
wglmnet(as.matrix(mtcars[-1]), mtcars[,1])
.my_data_frame[1]
zwraca ramkę danych z jedną kolumną,my_data_frame[[1]]
amy_data_frame[, 1]
obie zwracają wektor, który nie jest „zawarty” przez ramkę danych. Macierze są jednak właściwie tylko płaskie wektory ze specjalnym atrybutem, który umożliwia dostęp do R nich jak siatki, takmy_matrix[1]
,my_matrix[1, 1]
imy_matrix[[1]]
będzie wszystko zwróci pierwszy element, zmy_matrix
.my_matrix[, 1
] zwraca pierwszą kolumnę.Odpowiedzi:
Myślę, że próbując zinterpretować te wykresy współczynników przez , lub, bardzo pomaga wiedzieć, jak wyglądają w niektórych prostych przypadkach. W szczególności, jak wyglądają, gdy macierz projektu modelu jest nieskorelowana, w porównaniu z korelacją w projekcie.λ log( λ ) ∑ja| βja|
W tym celu stworzyłem niektóre skorelowane i nieskorelowane dane, aby wykazać:
Dane
x_uncorr
mają nieskorelowane kolumnypodczas gdy
x_corr
ma wstępnie ustaloną korelację między kolumnamiTeraz spójrzmy na wykresy lasso dla obu tych przypadków. Najpierw niepowiązane dane
Wyróżnia się kilka funkcji
Są to wszystkie ogólne fakty, które dotyczą regresji Lasso z nieskorelowanymi danymi, i wszystkie mogą być udowodnione ręcznie (dobre ćwiczenia!) Lub znalezione w literaturze.
Teraz zróbmy skorelowane dane
Możesz przeczytać niektóre rzeczy z tego wątku, porównując go do nieskorelowanego przypadku
Spójrzmy teraz na twoją fabułę z zestawu danych samochodów i przeczytaj kilka interesujących rzeczy (odtworzyłem tutaj twoją fabułę, aby łatwiej było przeczytać tę dyskusję):
Słowo ostrzeżenia : Napisałem następującą analizę opartą na założeniu, że krzywe pokazują znormalizowane współczynniki, w tym przykładzie nie. Niestandaryzowane współczynniki nie są bezwymiarowe i nieporównywalne, dlatego nie można wyciągać z nich wniosków w zakresie znaczenia predykcyjnego. Aby następująca analiza była prawidłowa, udawaj, że wykres ma znormalizowane współczynniki i wykonaj własną analizę na znormalizowanych ścieżkach współczynników.
wt
predyktor wydaje się bardzo ważny. Najpierw wchodzi do modelu i powoli i równomiernie schodzi do swojej ostatecznej wartości. Ma kilka korelacji, które sprawiają, że jazda jest nieco wyboista,am
w szczególności wydaje się mieć drastyczny efekt, gdy wjeżdża.am
jest również ważne. Przychodzi później i jest z nim skorelowanywt
, ponieważ wpływawt
gwałtownie na zbocze . Jest to również skorelowane zcarb
iqsec
, ponieważ nie widzimy przewidywalnego złagodzenia nachylenia, gdy te wchodzą. Po tych czterech zmiennych weszły jednak, że nie zobaczyć piękny skorelowane wzór, więc wydaje się być skorelowane ze wszystkimi czynnikami prognostycznymi na końcu.cyl
iwt
.cyl
jest dość fascynujące. Zajmuje drugie miejsce, więc jest ważne w przypadku małych modeli. Po wprowadzeniu innych zmiennych, a zwłaszcza icham
wprowadzeniu, nie jest już tak ważny, a jego trend się odwraca, a ostatecznie jest prawie całkowicie usunięty. Wygląda nacyl
to, że zmienne wprowadzane na końcu procesu mogą całkowicie uchwycić efekt . To, czy bardziej odpowiednie jest zastosowaniecyl
, czy uzupełniająca grupa zmiennych, naprawdę zależy od kompromisu wariancji odchylenia. Posiadanie grupy w ostatecznym modelu znacznie zwiększy jej wariancję, ale może się zdarzyć, że zrekompensuje to niższe odchylenie!To małe wprowadzenie do tego, jak nauczyłem się czytać informacje z tych fabuł. Myślę, że to mnóstwo zabawy!
Powiedziałbym, że argumenty za
wt
iam
są jednoznaczne, są ważne.cyl
jest znacznie bardziej subtelny, jest ważny w małym modelu, ale w ogóle nie jest istotny w dużym.Nie byłbym w stanie ustalić, co należy uwzględnić na podstawie samej liczby, na co naprawdę należy odpowiedzieć w kontekście tego, co robisz. Można powiedzieć, że jeśli chcesz model trzy przewidywań, a następnie
wt
,am
icyl
są dobrym wyborem, ponieważ są one istotne w wielkim schemacie rzeczy i powinien skończyć się o rozsądne rozmiary efekt w małym modelu. Jest to oparte na założeniu, że masz jakiś zewnętrzny powód, dla którego pragniesz małego trójprzewidywanego modelu.To prawda, że ten typ analizy obejmuje całe spektrum lambd i pozwala wyeliminować relacje w zakresie złożoności modelu. To powiedziawszy, dla ostatecznego modelu, myślę, że strojenie optymalnej lambda jest bardzo ważne. Wobec braku innych ograniczeń zdecydowanie użyłbym weryfikacji krzyżowej, aby znaleźć, gdzie wzdłuż tego spektrum jest najbardziej przewidywalna lambda, a następnie użyć tej lambda do ostatecznego modelu i ostatecznej analizy.
Z drugiej strony, czasami istnieją zewnętrzne ograniczenia dotyczące złożoności modelu (koszty wdrożenia, starsze systemy, minimalizm wyjaśniający, interpretacja biznesowa, dziedzictwo estetyczne), a tego rodzaju kontrola może naprawdę pomóc w zrozumieniu kształtu twoich danych oraz kompromisy, które robisz, wybierając mniejszy niż optymalny model.
źródło