Dlaczego R Squared nie jest dobrym miernikiem dopasowania regresji za pomocą LASSO?

12

Czytałem w kilku miejscach, że R Squared nie jest idealną miarą, gdy model jest dopasowany przy użyciu LASSO. Jednak nie jestem do końca pewien , dlaczego tak jest.

Ponadto, czy możesz polecić najlepszą alternatywę?

Dave
źródło

Odpowiedzi:

19

Celem użycia LASSO jest uzyskanie rzadkiej reprezentacji (przewidywanej wielkości) w sensie braku wielu zmiennych towarzyszących. Porównywanie modeli z ma tendencję do faworyzowania modeli z dużą liczbą zmiennych towarzyszących: w rzeczywistości dodanie zmiennych towarzyszących niezwiązanych z wynikiem nigdy nie zmniejszy i prawie zawsze zwiększa ją przynajmniej trochę. Model LASSO zidentyfikuje model z optymalnym karalnym prawdopodobieństwem logarytmicznym (niezenalizowane prawdopodobieństwo logu jest monotonicznie powiązane z ). Statystyki walidacyjne, które są szerzej stosowane do porównywania modeli LASSO z innymi typami modeli, to na przykład BIC lub cross-validated .R2)R 2 R 2R2)R2)R2)

AdamO
źródło
1
+1 za jasne przedstawienie przyczyny i
podanie
1
Dziękuję bardzo za świetną odpowiedź! Czy miałbyś coś przeciwko opracowaniu „Model LASSO zidentyfikuje model z optymalnym karalnym prawdopodobieństwem logu (niezenalizowane prawdopodobieństwo logu jest monotonicznie powiązane z R2)”. Rozumiem, że pierwsza część oznacza, że ​​wybierze model z najmniejszą ilością błędów (w przewidywaniu i poprzez karę)? Ale nie jestem pewien, co oznacza bit w nawiasach. Czy to oznacza, że ​​niezainicjowany poziom LL rośnie wraz ze spadkiem R2? Ponadto, czy R2 sprawdzony krzyżowo musi znajdować się w zupełnie nowym zestawie danych? Czy może być oparty na danych szkoleniowych?
Dave
3
@Dave Myślę, że masz dobry pomysł. Model regresji liniowej to LASSO bez kary, a prawdopodobieństwo logarytmu to po prostu podczas gdy R2 to tylko . Kary przyczyniają się do błędu pośrednio, jest to cena, którą płacisz za egzekwowanie rzadkości. W niez zdecentralizowanym modelu zawsze będzie występował niższy (wewnętrzny) błąd. Ludzie zazwyczaj dokonują weryfikacji krzyżowej przy użyciu tego samego zestawu danych. Testowanie modeli w nowych zestawach danych to zupełnie inna sprawa (nie potrzeba części „krzyżowej”) i to nie wystarczy. 1 - n i = 1 r 2 i / n i = 1 y 2 ilog(2)π)N.+1-log(N.)+log(ja=1nrja2))1-ja=1nrja2)/ja=1nyja2)
AdamO,
@AdamO Myślę, że dobrym pomysłem byłoby edytowanie komentarza w odpowiedzi, jest to bardzo dobre.
Matthew Drury
Cześć @AdamO, ostatnie pytanie uzupełniające. Rozumiem teraz, dlaczego tradycyjny R2 jest złym miernikiem. Ale nie jestem pewien, dlaczego sprawdzanie poprawności krzyżowej R2 (w tym samym zestawie danych) jest w porządku?
Dave