Czy są jakieś badania empiryczne uzasadniające stosowanie jednej standardowej reguły błędu na korzyść parsimony? Oczywiście zależy to od procesu generowania danych, ale wszystko, co analizuje duży zbiór zbiorów danych, byłoby bardzo interesujące.
„Jedna standardowa reguła błędu” jest stosowana przy wyborze modeli poprzez walidację krzyżową (lub bardziej ogólnie za pomocą dowolnej procedury opartej na randomizacji).
Załóżmy, że rozważamy modele indeksowane parametrem złożoności , tak że jest „bardziej złożony” niż dokładnie wtedy, gdy . Załóżmy dalej, że oceniamy jakość modelu pomocą pewnego procesu randomizacji, np. Walidacji krzyżowej. Niech oznacza „średnią” jakość , np. Średni błąd prognozowania po wyjęciu z torby w wielu przebiegach walidacji krzyżowej. Chcemy zminimalizować tę ilość.
Ponieważ jednak nasza miara jakości pochodzi z jakiejś procedury randomizacji, ma zmienność. Niech oznacza błąd standardowy jakości w przebiegach randomizacji, np. Odchylenie standardowe błędu prognozowania kolejnością w przebiegach walidacji krzyżowej.
Następnie wybieramy model , gdzie jest najmniejszym takim, że
To znaczy wybieramy najprostszy model ( najmniejszy ), który jest nie więcej niż jeden błąd standardowy gorszy niż najlepszy model w procedurze randomizacji.M τ ′
Znalazłem tę „jedną standardową regułę błędu”, o której mowa w następujących miejscach, ale nigdy bez wyraźnego uzasadnienia:
- Strona 80 w drzewach klasyfikacji i regresji Breimana, Friedmana, Stone i Olshen (1984)
- Strona 415 w Oszacowaniu liczby klastrów w zbiorze danych za pomocą statystyki luk przez Tibshirani, Walther & Hastie ( JRSS B , 2001) (odniesienie do Breiman i in.)
- Strony 61 i 244 w Elementach statystycznego uczenia się autorstwa Hastie, Tibshirani i Friedman (2009)
- Strona 13 w Statystycznym uczeniu się ze rzadkością Hastie, Tibshirani i Wainwright (2015)
źródło
Odpowiedzi:
Poniższe nie jest badaniem empirycznym , dlatego pierwotnie chciałem opublikować go jako komentarz, a nie odpowiedź - ale tak naprawdę okazuje się, że jest zbyt długi na komentarz.
Cawley & Talbot ( J of Machine Learning Research , 2010) zwracają uwagę na różnicę między przeregulowaniem podczas fazy wyboru modelu a przeregulowaniem podczas fazy dopasowania modelu.
Drugi rodzaj nadmiernego dopasowania jest tym, który zna większość ludzi: biorąc pod uwagę konkretny model, nie chcemy go dopasowywać, tj. Zbyt mocno dopasowywać do konkretnych cech pojedynczego zestawu danych, który zwykle mamy. (W tym miejscu może pomóc skurcz / regularyzacja, handlując niewielkim wzrostem odchylenia od dużego spadku wariancji. )
Jednak Cawley i Talbot twierdzą, że równie dobrze możemy się dopasować na etapie wyboru modelu. W końcu nadal mamy zwykle tylko jeden zestaw danych i decydujemy o różnych modelach o różnym stopniu złożoności. Ocena każdego modelu kandydackiego w celu wybrania jednego zwykle obejmuje dopasowanie tego modelu, co można zrobić za pomocą regularyzacji lub nie. Ale ta ocena sama w sobie jest znowu zmienną losową, ponieważ zależy od konkretnego zestawu danych, jaki mamy. Nasz wybór „optymalnego” modelu może sam w sobie wykazywać tendencję i będzie wykazywać wariancję, ponieważ zależy od konkretnego zestawu danych ze wszystkich zbiorów danych, które moglibyśmy wyciągnąć z populacji.
Cawley i Talbot twierdzą zatem, że samo wybranie modelu, który najlepiej sprawdza się w tej ocenie, może być regułą wyboru z niewielkim uprzedzeniem - ale może wykazywać dużą wariancję. To znaczy, biorąc pod uwagę różne zestawy danych szkoleniowych z tego samego procesu generowania danych (MZD), reguła ta może wybierać bardzo różne modele, które następnie zostaną dopasowane i wykorzystane do przewidywania w nowych zestawach danych, które ponownie następują po tym samym MZD. W tym świetle ograniczenie wariancji procedury wyboru modelu, ale pociągnięcie za sobą niewielkiego odchylenia w kierunku prostszych modeli, może powodować mniejsze błędy poza próbą.
Cawley i Talbot nie łączą tego wprost z jedną standardową regułą błędu, a ich sekcja na temat „wyboru modelu regularyzującego” jest bardzo krótka. Jednak jedna standardowa reguła błędu wykonałaby dokładnie tę regularyzację i uwzględniałaby zależność między wariancją wyboru modelu a wariancją błędu weryfikacji krzyżowej poza torbą.
Na przykład poniżej przedstawiono rysunek 2.3 z Statistics Learning with Sparsity autorstwa Hastie, Tibshirani i Wainwright (2015) . Wariancja wyboru modelu wynika z wypukłości czarnej linii co najmniej. Tutaj minimum nie jest bardzo wyraźne, a linia jest raczej słabo wypukła, więc wybór modelu jest raczej niepewny przy dużej wariancji. A wariancja oszacowania błędu OOB CV jest oczywiście podana przez wiele jasnoniebieskich linii wskazujących standardowe błędy.
źródło
Aby uzyskać empiryczne uzasadnienie, spójrz na stronę 12 tych notatek o kursie eksploracji danych Tibshirani , które pokazują błąd CV jako funkcję lambda dla konkretnego problemu modelowania. Sugeruje się, że poniżej pewnej wartości wszystkie lambdy dają ten sam błąd CV. Ma to sens, ponieważ w przeciwieństwie do regresji grzbietu, LASSO nie jest zwykle używane tylko, a nawet przede wszystkim, do poprawy dokładności prognozowania. Jego główną zaletą jest to, że sprawia, że modele są prostsze i łatwiejsze do interpretacji poprzez wyeliminowanie najmniej istotnych / wartościowych predyktorów.
źródło
Bühlmann i van de Geer powinni to zgłosić w statystykach dla danych wielowymiarowych .
źródło