Z innych postów wyciągnąłem wniosek, że nie można przypisywać „ważności” ani „znaczenia” zmiennym predykcyjnym wchodzącym w model lasso, ponieważ obliczanie wartości p lub odchyleń standardowych tych zmiennych jest wciąż w toku.
Czy zgodnie z tym rozumowaniem słuszne jest stwierdzenie, że NIE MOŻNA powiedzieć, że zmienne WYŁĄCZONE z modelu lasso są „nieistotne” lub „nieistotne”?
Jeśli tak, to co właściwie mogę twierdzić o zmiennych, które są albo wykluczone, albo zawarte w modelu lasso? W moim konkretnym przypadku wybrałem parametr strojenia lambda, powtarzając 10-krotną walidację krzyżową 100 razy w celu zmniejszenia losowości i uśrednienia krzywych błędów.
AKTUALIZACJA 1: Postępowałem zgodnie z sugestią poniżej i ponownie uruchomiłem lasso, używając próbek bootstrap. Próbowałem ze 100 próbkami (ta ilość była w stanie zarządzać mocą mojego komputera przez noc) i pojawiły się pewne wzorce. 2 z moich 41 zmiennych weszło do modelu ponad 95% razy, 3 zmienne ponad 90% i 5 zmiennych ponad 85%. Tych 5 zmiennych należy do 9, które weszły do modelu, gdy uruchomiłem go z oryginalną próbką, i były to te, które miały wówczas najwyższe wartości współczynników. Jeśli uruchomię lasso z powiedzmy 1000 próbek ładowania początkowego i te wzorce zostaną zachowane, jaki byłby najlepszy sposób prezentacji moich wyników?
Czy 1000 próbek bootstrap brzmi wystarczająco? (Mój rozmiar próbki to 116)
Czy powinienem wymienić wszystkie zmienne i częstotliwość ich wprowadzania do modelu, a następnie argumentować, że te, które wchodzą częściej, są bardziej prawdopodobne?
Czy to tak daleko, jak tylko mogę z moimi roszczeniami? Ponieważ jest to praca w toku (patrz wyżej), nie mogę użyć wartości odcięcia, prawda?
AKTUALIZACJA 2: Zgodnie z poniższą sugestią obliczyłem: średnio 78% zmiennych w oryginalnym modelu wprowadzono do modeli wygenerowanych dla 100 próbek bootstrap. Z drugiej strony tylko 41% na odwrót. Ma to w dużej mierze związek z faktem, że modele generowane dla próbek bootstrap zwykle zawierały znacznie więcej zmiennych (średnio 17) niż model oryginalny (9).
AKTUALIZACJA3: Jeśli mógłbyś mi pomóc w interpretacji wyników, które otrzymałem z bootstrapowania i symulacji Monte Carlo, proszę spojrzeć na ten drugi post.