Krokowe algorytmiczne metody selekcji zmiennych mają tendencję do wybierania dla modeli, które mniej lub bardziej uwzględniają każde oszacowanie w modelach regresji ( i ich SE, wartości p , statystyki F itp.) I prawdopodobnie wykluczą prawdziwe predyktory, takie jak obejmują fałszywe predyktory zgodnie z dość dojrzałą literaturą symulacyjną.
Czy LASSO cierpi w ten sam konkretny sposób, gdy używa się go do wybierania zmiennych?
11.4.1 Variable-Selection Consistency for the Lasso
Odpowiedzi:
Interpretacja prawdopodobieństwa częstych wyrażeń prawdopodobieństwa, wartości p itp. Dla modelu LASSO i regresji krokowej nie jest poprawna.
Te wyrażenia przeceniają prawdopodobieństwo. Np. 95% przedział ufności dla jakiegoś parametru ma powiedzieć, że masz 95% prawdopodobieństwo, że metoda spowoduje interwał z prawdziwą zmienną modelu w tym przedziale.
Jednak dopasowane modele nie wynikają z typowej pojedynczej hipotezy, a zamiast tego wybieramy wiśnie (wybieramy spośród wielu możliwych alternatywnych modeli), gdy przeprowadzamy regresję krokową lub regresję LASSO.
Ocena poprawności parametrów modelu nie ma większego sensu (szczególnie gdy prawdopodobne jest, że model nie jest poprawny).
Przykład: poniższy wykres przedstawiający wyniki modelu zabawki dla pewnego sygnału, który jest sumą liniową 10 krzywych Gaussa (może to na przykład przypominać analizę chemiczną, w której sygnał dla widma jest uważany za sumę liniową kilka elementów). Sygnał 10 krzywych jest wyposażony w model 100 elementów (krzywe Gaussa z inną średnią) przy użyciu LASSO. Sygnał jest dobrze oszacowany (porównaj czerwoną i czarną krzywą, które są dość blisko). Ale rzeczywiste podstawowe współczynniki nie są dobrze oszacowane i mogą być całkowicie błędne (porównaj czerwone i czarne paski z kropkami, które nie są takie same). Zobacz także ostatnie 10 współczynników:
Model LASSO wybiera współczynniki, które są bardzo przybliżone, ale z perspektywy samych współczynników oznacza to duży błąd, gdy szacuje się, że współczynnik, który powinien być niezerowy, wynosi zero, a sąsiedni współczynnik, który powinien wynosić zero, jest szacowany na niezerowa. Wszelkie przedziały ufności dla współczynników miałyby bardzo niewielki sens.
Mocowanie LASSO
Stopniowe dopasowanie
Dla porównania tę samą krzywą można wyposażyć w algorytm krokowy prowadzący do obrazu poniżej. (z podobnymi problemami, że współczynniki są bliskie, ale nie pasują)
Nawet jeśli weźmiesz pod uwagę dokładność krzywej (a nie parametry, które w poprzednim punkcie wyjaśniono, że nie ma to sensu), musisz poradzić sobie z nadmiernym dopasowaniem. Kiedy wykonujesz procedurę dopasowania z LASSO, korzystasz z danych treningowych (aby dopasować modele o różnych parametrach) i danych testowych / walidacyjnych (aby dostroić / znaleźć najlepszy parametr), ale powinieneś również użyć trzeciego oddzielnego zestawu danych testowych / walidacyjnych w celu ustalenia wydajności danych.
Wartość p lub coś podobnego nie zadziała, ponieważ pracujesz nad tuningowanym modelem, który jest wybieraniem wiśni i różni się (znacznie większy stopień swobody) od zwykłej metody dopasowania liniowego.
Pomyślałem, że głównym powodem zastosowania LASSO zamiast regresji krokowej jest to, że LASSO pozwala na mniej chciwy wybór parametrów, na który mniejszy wpływ ma multikolinarność. (więcej różnic między LASSO i krokowym: Przewaga LASSO nad wyborem do przodu / eliminacją do tyłu pod względem błędu prognozy walidacji krzyżowej modelu )
Kod przykładowego obrazu
źródło
- Frank Harrell
- Adrian
- Adrian
źródło