Z grubsza mówiąc, istnieją trzy różne źródła błędu prognozowania:
- stronniczość twojego modelu
- wariancja twojego modelu
- niewyjaśniona wariancja
Nie możemy nic zrobić z punktem 3 (z wyjątkiem próby oszacowania niewyjaśnionej wariancji i włączenia jej do naszych gęstości predykcyjnych i przedziałów prognozowania). Pozostaje nam 1 i 2.
Jeśli faktycznie masz „właściwy” model, to powiedzmy, że szacunki parametrów OLS będą obiektywne i będą miały minimalną wariancję między wszystkimi obiektywnymi (liniowymi) estymatorami (są NIEBIESKIE). Prognozy z modelu OLS będą najlepszymi liniowymi obiektywnymi prognozami (BLUP). To brzmi dobrze.
Okazuje się jednak, że chociaż mamy obiektywne prognozy i minimalną wariancję wśród wszystkich obiektywnych prognoz, wariancja może być nadal dość duża. Co ważniejsze, czasami możemy wprowadzić „małą” stronniczość i jednocześnie zaoszczędzić „dużo” wariancji - a dzięki poprawie kompromisu możemy uzyskać niższy błąd predykcji z modelem tendencyjnym (mniejsza wariancja) niż z obiektywnym ( wyższa wariancja). Nazywa się to „kompromisem wariancji uprzedzeń”, a to pytanie i odpowiedzi są pouczające: kiedy preferowany estymator jest lepszy niż obiektywny?
I właśnie regularyzacja, taka jak lasso, regresja kalenicy, elastyczna siatka i tak dalej. Wyciągają model do zera. (Podejścia bayesowskie są podobne - przyciągają model w kierunku priorytetów.) Zatem modele regularyzowane będą tendencyjne w porównaniu z modelami nieregulowanymi, ale mają również mniejszą wariancję. Jeśli wybierzesz swoje prawo do regularyzacji, wynikiem będzie prognoza z niższym błędem.
Jeśli szukasz „regularyzacji kompromisowej wariancji odchylenia” lub podobnej, masz do myślenia. Na przykład ta prezentacja jest przydatna.
EDYCJA: ameba całkiem słusznie wskazuje, że zastanawiam się, dlaczego dokładnie regularyzacja daje mniejszą wariancję modeli i prognoz. Rozważ model lasso z dużym parametrem regularyzacji . Jeśli , wszystkie twoje oszacowania parametrów lasso zostaną zmniejszone do zera. Stała wartość parametru zero ma zerową wariancję. (Nie jest to do końca poprawne, ponieważ wartość progowa powyżej której parametry zostaną zmniejszone do zera, zależy od danych i modelu. Jednak biorąc pod uwagę model i dane, można znaleźćλλ→∞λλtak, że model jest modelem zerowym. Zawsze trzymaj swoje kwantyfikatory prosto.) Jednak model zerowy będzie miał również olbrzymią tendencję. W końcu nie obchodzi go faktyczna obserwacja.
To samo dotyczy niezupełnie skrajnych wartości parametrów regularyzacji: małe wartości dają nieregularne oszacowania parametrów, które będą mniej tendencyjne (obiektywne, jeśli masz „prawidłowy” model), ale mają wyższe zmienność. Będą „skakać” zgodnie z twoimi obserwacjami. Wyższe wartości twojej regularyzacji będą coraz bardziej „ograniczały” szacunki parametrów. Właśnie dlatego metody te mają nazwy takie jak „lasso” lub „siatka elastyczna”: ograniczają swobodę parametrów użytkownika w zakresie przemieszczania się i śledzenia danych.λ
(Piszę na ten temat mały artykuł, który, mam nadzieję, będzie raczej dostępny. Dodam link, gdy będzie dostępny).
Aby dodać coś do dobrej odpowiedzi @ Kolassa, całe pytanie dotyczące szacunków kurczenia się wiąże się z paradoksem Stein . W przypadku procesów wielowymiarowych z wektor średnich próbek jest niedopuszczalny. Innymi słowy, dla niektórych wartości parametrów istnieje inny estymator o niższym oczekiwanym ryzyku. Stein zaproponował jako przykład estymator skurczu. Mamy więc do czynienia z przekleństwem wymiarowości, ponieważ skurcz nie pomaga, gdy masz tylko 1 lub 2 niezależne zmienne.p≥3
Przeczytaj tę odpowiedź, aby uzyskać więcej. Najwyraźniej paradoks Stein'a związany jest ze znanym twierdzeniem, że proces ruchu Browna w 3 lub więcej wymiarach nie powtarza się (wędruje po całym miejscu bez powrotu do źródła), podczas gdy 1 i 2 wymiarowi Browny są powtarzalne.
Paradoks Stein'a obowiązuje niezależnie od tego, do czego się kurczysz, chociaż w praktyce lepiej jest, jeśli skurczysz się w kierunku prawdziwych wartości parametrów. Tak robią Bayesianie. Myślą, że wiedzą, gdzie jest prawdziwy parametr i kurczą się w jego kierunku. Następnie twierdzą, że Stein potwierdza ich istnienie.
Nazywa się to paradoksem właśnie dlatego, że podważa naszą intuicję. Jeśli jednak pomyślisz o ruchu Browna, jedynym sposobem na uzyskanie ruchu 3D Browna w celu powrotu do miejsca początkowego byłoby nałożenie kary tłumienia na stopnie. Estymator skurczu narzuca również rodzaj szacunku na szacunki (zmniejsza wariancję), dlatego działa.
źródło