Czy są jakieś wyniki analityczne lub prace eksperymentalne dotyczące optymalnego wyboru współczynnika kary karnej Przez „ optymalny” rozumiem parametr, który maksymalizuje prawdopodobieństwo wyboru najlepszego modelu lub minimalizuje oczekiwaną stratę. Pytam, ponieważ często niepraktyczne jest wybranie parametru za pomocą weryfikacji krzyżowej lub bootstrapu, albo z powodu dużej liczby przypadków problemu, albo ze względu na jego rozmiar. Jedyny pozytywny wynik, jaki znam, to Candes and Plan, prawie idealny wybór modelu poprzez minimalizację .
model-selection
lasso
shrinkage
niezadowolony
źródło
źródło
Odpowiedzi:
Twierdzenie kasy 5.1 tego Bickel i in. . Statystycznie optymalny wybór pod względem błędów wynosi λ = σ hałas √∥y−y^(λ)∥22 (z dużym prawdopodobieństwem), dla stałejA>2λ=Aσnoiselogpn−−−−−√ .A>22–√
źródło
Rozumiem, że jesteś zainteresowany głównie w regresji, jak w cytowanym artykule, a nie inne aplikacje zℓ1 kary (powiedzmy, lasso graficzne).
Uważam więc, że niektóre odpowiedzi można znaleźć w artykule „Stopnie swobody” lasso autorstwa Zou i in. W skrócie, daje formułę analityczną dla efektywnych stopni swobody , która dla kwadratu utraty błędu pozwala zastąpić CV analitycznymCp -Type statystyki mówią.
Kolejne miejsce do zobaczenia selektor Dantzig: Szacowanie statystyczne, gdy p jest znacznie większe niż n, oraz dokumenty do dyskusji w tym samym numerze Annals of Statistics. Rozumiem, że rozwiązują problem ściśle związany z regresją lasso, ale ze stałym wyborem współczynnika kary. Ale proszę również spojrzeć na dokumenty do dyskusji.
Jeśli nie jesteś zainteresowany prognozowaniem, ale wyborem modelu, nie znam podobnych wyników. Modele optymalne przewidywania często skutkują zbyt wieloma wybranymi zmiennymi w modelach regresji. W artykule Wybór stabilności Meinshausen i Bühlmann przedstawiają technikę podpróbkowania bardziej przydatną do wyboru modelu, ale może być zbyt wymagająca obliczeniowo dla twoich potrzeb.
źródło
Od czasu zadania tego pytania dokonano interesujących postępów. Weźmy na przykład ten artykuł
Proponują metodę wyboru parametru strojenia LASSO z możliwymi do udowodnienia ograniczonymi próbkami gwarancyjnymi przy wyborze modelu. Jak mówią w artykule: „W przypadku standardowych schematów kalibracji, w tym walidacji krzyżowej, w literaturze nie ma porównywalnych gwarancji. W rzeczywistości nie jesteśmy świadomi żadnych gwarancji na skończoną próbkę dla standardowych schematów kalibracji”.
źródło
To nie odpowiada na twoje pytanie, ale: przy dużym ustawieniu danych, może być dobrze dostroić regulizator za pomocą pojedynczego podziału pociąg / test, zamiast robić to około 10 razy w ramach weryfikacji krzyżowej (lub więcej dla bootstrap). Rozmiar i reprezentatywność próbki wybranej dla zestawu determinuje dokładność oszacowania optymalnego regulizatora.
Z mojego doświadczenia wynika, że utrzymywana strata jest stosunkowo płaska w znacznym zakresie regulizatora. Jestem pewien, że ten fakt może nie dotyczyć innych problemów.
źródło