Empiryczne uzasadnienie dla jednej standardowej reguły błędu przy zastosowaniu weryfikacji krzyżowej

39

Czy są jakieś badania empiryczne uzasadniające stosowanie jednej standardowej reguły błędu na korzyść parsimony? Oczywiście zależy to od procesu generowania danych, ale wszystko, co analizuje duży zbiór zbiorów danych, byłoby bardzo interesujące.


„Jedna standardowa reguła błędu” jest stosowana przy wyborze modeli poprzez walidację krzyżową (lub bardziej ogólnie za pomocą dowolnej procedury opartej na randomizacji).

Załóżmy, że rozważamy modele Mτ indeksowane parametrem złożoności τR , tak że Mτ jest „bardziej złożony” niż Mτ dokładnie wtedy, gdy τ>τ . Załóżmy dalej, że oceniamy jakość modelu M pomocą pewnego procesu randomizacji, np. Walidacji krzyżowej. Niech q(M) oznacza „średnią” jakość M , np. Średni błąd prognozowania po wyjęciu z torby w wielu przebiegach walidacji krzyżowej. Chcemy zminimalizować tę ilość.

Ponieważ jednak nasza miara jakości pochodzi z jakiejś procedury randomizacji, ma zmienność. Niech s(M) oznacza błąd standardowy jakości M w przebiegach randomizacji, np. Odchylenie standardowe błędu prognozowania M kolejnością w przebiegach walidacji krzyżowej.

Następnie wybieramy model Mτ , gdzie τ jest najmniejszym τ takim, że

q(Mτ)q(Mτ)+s(Mτ),

τq(Mτ)=minτq(Mτ)

To znaczy wybieramy najprostszy model ( najmniejszy ), który jest nie więcej niż jeden błąd standardowy gorszy niż najlepszy model w procedurze randomizacji.M τ τMτ

Znalazłem tę „jedną standardową regułę błędu”, o której mowa w następujących miejscach, ale nigdy bez wyraźnego uzasadnienia:

DavidShor
źródło
7
Chociaż wiem, o czym mówisz w „Regule jednego standardowego błędu”, mocno podejrzewam, że wiele osób tego nie zrobi, ale byłoby zainteresowane tym pytaniem, gdyby tak zrobili. Może mógłbyś edytować, aby dodać kilka zdań wyjaśniających? (Tylko sugestia ...)
jbowman
2
@jbowman: Właśnie zredagowałem pytanie, aby wyjaśnić jedną standardową zasadę błędu, wpadając na to, ponieważ jestem również bardzo zainteresowany tym ... a odpowiedź poniżej tak naprawdę nie odpowiada na moje pytania. Każdy, proszę poprawić.
S. Kolassa - Przywróć Monikę
Powiązane: stats.stackexchange.com/questions/138569
mówi Przywróć Monikę
2
Byłby to dobry temat na artykuł. Wydaje się, że jest to rozsądna heurystyka inżynierska, ale nie wszystkie SEH działają w praktyce, więc badanie na dużej liczbie zestawów danych byłoby interesujące. Zastanawiam się, czy występuje problem z testowaniem wielu hipotez, który może oznaczać, że nie jest zbyt dobrze skalibrowany, ale pomyślałbym, że byłoby lepiej niż nic nie robić w zestawach danych, w których tego rodzaju przeregulowanie może być problem. Pytanie brzmi: czy to znacznie obniża wydajność zbiorów danych, w których nie stanowi to problemu?
Dikran Torbacz

Odpowiedzi:

12

Poniższe nie jest badaniem empirycznym , dlatego pierwotnie chciałem opublikować go jako komentarz, a nie odpowiedź - ale tak naprawdę okazuje się, że jest zbyt długi na komentarz.

Cawley & Talbot ( J of Machine Learning Research , 2010) zwracają uwagę na różnicę między przeregulowaniem podczas fazy wyboru modelu a przeregulowaniem podczas fazy dopasowania modelu.

Drugi rodzaj nadmiernego dopasowania jest tym, który zna większość ludzi: biorąc pod uwagę konkretny model, nie chcemy go dopasowywać, tj. Zbyt mocno dopasowywać do konkretnych cech pojedynczego zestawu danych, który zwykle mamy. (W tym miejscu może pomóc skurcz / regularyzacja, handlując niewielkim wzrostem odchylenia od dużego spadku wariancji. )

Jednak Cawley i Talbot twierdzą, że równie dobrze możemy się dopasować na etapie wyboru modelu. W końcu nadal mamy zwykle tylko jeden zestaw danych i decydujemy o różnych modelach o różnym stopniu złożoności. Ocena każdego modelu kandydackiego w celu wybrania jednego zwykle obejmuje dopasowanie tego modelu, co można zrobić za pomocą regularyzacji lub nie. Ale ta ocena sama w sobie jest znowu zmienną losową, ponieważ zależy od konkretnego zestawu danych, jaki mamy. Nasz wybór „optymalnego” modelu może sam w sobie wykazywać tendencję i będzie wykazywać wariancję, ponieważ zależy od konkretnego zestawu danych ze wszystkich zbiorów danych, które moglibyśmy wyciągnąć z populacji.

Cawley i Talbot twierdzą zatem, że samo wybranie modelu, który najlepiej sprawdza się w tej ocenie, może być regułą wyboru z niewielkim uprzedzeniem - ale może wykazywać dużą wariancję. To znaczy, biorąc pod uwagę różne zestawy danych szkoleniowych z tego samego procesu generowania danych (MZD), reguła ta może wybierać bardzo różne modele, które następnie zostaną dopasowane i wykorzystane do przewidywania w nowych zestawach danych, które ponownie następują po tym samym MZD. W tym świetle ograniczenie wariancji procedury wyboru modelu, ale pociągnięcie za sobą niewielkiego odchylenia w kierunku prostszych modeli, może powodować mniejsze błędy poza próbą.

Cawley i Talbot nie łączą tego wprost z jedną standardową regułą błędu, a ich sekcja na temat „wyboru modelu regularyzującego” jest bardzo krótka. Jednak jedna standardowa reguła błędu wykonałaby dokładnie tę regularyzację i uwzględniałaby zależność między wariancją wyboru modelu a wariancją błędu weryfikacji krzyżowej poza torbą.

Na przykład poniżej przedstawiono rysunek 2.3 z Statistics Learning with Sparsity autorstwa Hastie, Tibshirani i Wainwright (2015) . Wariancja wyboru modelu wynika z wypukłości czarnej linii co najmniej. Tutaj minimum nie jest bardzo wyraźne, a linia jest raczej słabo wypukła, więc wybór modelu jest raczej niepewny przy dużej wariancji. A wariancja oszacowania błędu OOB CV jest oczywiście podana przez wiele jasnoniebieskich linii wskazujących standardowe błędy.

jedna standardowa reguła błędu

S. Kolassa - Przywróć Monikę
źródło
1
Haha, spróbuj tego wyszukiwania (lub wstaw myślnik w zapytaniu).
ameba mówi Przywróć Monikę
2
Jeśli masz tylko jeden parametr regularyzacji, wówczas ten rodzaj nadmiernego dopasowania zwykle nie jest zbyt problematyczny (ponieważ problem optymalizacji ma tylko jeden stopień swobody), ale jeśli masz wiele parametrów regularyzacji (np. Automatyczne określanie istotności dla sieci neuronowych) wtedy może szybko stać się bardzo znaczny. Metoda one sd to niezła heurystyka pozwalająca uniknąć nadmiernej optymalizacji parametru regularyzacji, ale byłoby miło spróbować mieć coś z nieco większym uzasadnieniem (1/2)
Dikran Marsupial
1
Dwa podejścia, które my (pani Marsupial i ja) zbadaliśmy, to uregulowanie hiperparametrów za pomocą hiperparametru hyper, który jest zintegrowany analitycznie ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) lub przekonwertować niektóre hiperparametry na parametry i dopasować je również bezpośrednio do danych, kosztem dodania dodatkowego parametru regularyzacji (ale to nadal zmniejsza stopnie swobody wyboru modelu, więc nadal pomaga) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial
1
λ
1
Jednym wątkiem na temat optymalizacji lambda-vs-marginalizacji-over-lambda, o którym wspomniał @DikranMarsupial, jest stats.stackexchange.com/questions/24799 . Ta dyskusja dotyczy regresji grzbietu, a marginalizacja jest prawdopodobnie (?) Trudniejsza dla lasso / elastycznej siatki / itp., Podczas gdy piękno CV jest takie łatwe do wdrożenia.
ameba mówi Przywróć Monikę
12

Aby uzyskać empiryczne uzasadnienie, spójrz na stronę 12 tych notatek o kursie eksploracji danych Tibshirani , które pokazują błąd CV jako funkcję lambda dla konkretnego problemu modelowania. Sugeruje się, że poniżej pewnej wartości wszystkie lambdy dają ten sam błąd CV. Ma to sens, ponieważ w przeciwieństwie do regresji grzbietu, LASSO nie jest zwykle używane tylko, a nawet przede wszystkim, do poprawy dokładności prognozowania. Jego główną zaletą jest to, że sprawia, że ​​modele są prostsze i łatwiejsze do interpretacji poprzez wyeliminowanie najmniej istotnych / wartościowych predyktorów.

λL1

Paweł
źródło
1
Nie rozumiem logiki tej odpowiedzi. Np .: „w przeciwieństwie do regresji kalenicowej, LASSO nie jest mechanizmem poprawiającym dokładność prognoz” - dlaczego? Dlaczego L1 tak różni się od L2? W następnym zdaniu opisujesz, co dzieje się z L1 dla niskich lambdas, ale myślę, że to samo dzieje się z L2 dla niskich lambdas.
ameba mówi Przywróć Monikę
1
Zauważ, że jest to heurystyczne wyjaśnienie i opiera się na niektórych nieopowiedzianych założeniach, podobnie jak wszystkie predyktory mają charakter informacyjny. Jeśli masz mnóstwo predyktorów hałasu i kilka informacyjnych, może rzeczywiście istnieć wartość lambda, która wyraźnie i wyraźnie optymalizuje metryki CV: ta, która odpowiada wybraniu podzbioru predyktorów informacyjnych. Gdy lambda spada poniżej tej wartości, wpuszczasz hałas i ranisz model.
Paul
1
Myślę, że argument działa równie dobrze dla grzbietu i lassa, jeśli zastosujesz szeroką definicję parsimony, w której więcej uregulowań -> prostszy model. Łatwiej jest jednak zmotywować L1 niż L2 ze względu na różnego rodzaju problemy i zestawy danych, w których są używane. Ludzie, którzy używają L1, są bardziej zainteresowani posiadaniem prostego modelu i częściej spotykają krzywą błędu CV wykazywaną przez Tibshirani.
Paul
1
Z klasycznego tekstu ESL , str. 224: „Często stosuje się zasadę„ błędu jednego standardu ”przy weryfikacji krzyżowej, w której wybieramy najbardziej oszczędny model, w którym błąd jest nie większy niż jeden błąd standardowy powyżej błędu najlepszego modelu.” Podany przykład to regresja podzbioru i pokazano krzywą w kształcie kolana w funkcji liczby predyktorów. Krzywa jest płaska powyżej prawidłowej liczby predyktorów, co ponownie jest zgodne z wyjaśnieniem, które podałem powyżej. Nie wspomniano o żadnym rygorystycznym lub matematycznym uzasadnieniu.
Paul
1
Myślę więc, że głównym problemem jest to, że minimum jest słabo określone, ale najbardziej uregulowany model w ramach jednej sigmy minimum jest dobrze zdefiniowany.
Paul
1

λλS.^(λ)λ

λP.(S.0S.^(λ))1S.0

Bühlmann i van de Geer powinni to zgłosić w statystykach dla danych wielowymiarowych .

λ

Donbeo
źródło
1
Czy możesz tu podać nieco więcej szczegółów? To wydaje się fascynujące.
DavidShor,
1
λ
Myślę, że faktem jest, że wybranie większej liczby zmiennych niż jest wymagane zmniejszy wydajność prognozowania mniej niż wybranie niewystarczającej liczby zmiennych. Z tego powodu CV zwykle wybiera więcej zmiennych.
Donbeo,
spójrz na tę książkę springer.com/gp/book/9783642201912 i rozdział lasso tutaj drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM
Donbeo
To była książka, którą miałem na myśli
Donbeo