Dlaczego skurcz działa?

55

W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości bardzo duży, dlaczego skurczenie parametru nie spowoduje gorszej prognozy?

aspirującystatysta
źródło

Odpowiedzi:

48

Z grubsza mówiąc, istnieją trzy różne źródła błędu prognozowania:

  1. stronniczość twojego modelu
  2. wariancja twojego modelu
  3. niewyjaśniona wariancja

Nie możemy nic zrobić z punktem 3 (z wyjątkiem próby oszacowania niewyjaśnionej wariancji i włączenia jej do naszych gęstości predykcyjnych i przedziałów prognozowania). Pozostaje nam 1 i 2.

Jeśli faktycznie masz „właściwy” model, to powiedzmy, że szacunki parametrów OLS będą obiektywne i będą miały minimalną wariancję między wszystkimi obiektywnymi (liniowymi) estymatorami (są NIEBIESKIE). Prognozy z modelu OLS będą najlepszymi liniowymi obiektywnymi prognozami (BLUP). To brzmi dobrze.

Okazuje się jednak, że chociaż mamy obiektywne prognozy i minimalną wariancję wśród wszystkich obiektywnych prognoz, wariancja może być nadal dość duża. Co ważniejsze, czasami możemy wprowadzić „małą” stronniczość i jednocześnie zaoszczędzić „dużo” wariancji - a dzięki poprawie kompromisu możemy uzyskać niższy błąd predykcji z modelem tendencyjnym (mniejsza wariancja) niż z obiektywnym ( wyższa wariancja). Nazywa się to „kompromisem wariancji uprzedzeń”, a to pytanie i odpowiedzi są pouczające: kiedy preferowany estymator jest lepszy niż obiektywny?

I właśnie regularyzacja, taka jak lasso, regresja kalenicy, elastyczna siatka i tak dalej. Wyciągają model do zera. (Podejścia bayesowskie są podobne - przyciągają model w kierunku priorytetów.) Zatem modele regularyzowane będą tendencyjne w porównaniu z modelami nieregulowanymi, ale mają również mniejszą wariancję. Jeśli wybierzesz swoje prawo do regularyzacji, wynikiem będzie prognoza z niższym błędem.

Jeśli szukasz „regularyzacji kompromisowej wariancji odchylenia” lub podobnej, masz do myślenia. Na przykład ta prezentacja jest przydatna.

EDYCJA: ameba całkiem słusznie wskazuje, że zastanawiam się, dlaczego dokładnie regularyzacja daje mniejszą wariancję modeli i prognoz. Rozważ model lasso z dużym parametrem regularyzacji . Jeśli , wszystkie twoje oszacowania parametrów lasso zostaną zmniejszone do zera. Stała wartość parametru zero ma zerową wariancję. (Nie jest to do końca poprawne, ponieważ wartość progowa powyżej której parametry zostaną zmniejszone do zera, zależy od danych i modelu. Jednak biorąc pod uwagę model i dane, można znaleźćλλλλtak, że model jest modelem zerowym. Zawsze trzymaj swoje kwantyfikatory prosto.) Jednak model zerowy będzie miał również olbrzymią tendencję. W końcu nie obchodzi go faktyczna obserwacja.

To samo dotyczy niezupełnie skrajnych wartości parametrów regularyzacji: małe wartości dają nieregularne oszacowania parametrów, które będą mniej tendencyjne (obiektywne, jeśli masz „prawidłowy” model), ale mają wyższe zmienność. Będą „skakać” zgodnie z twoimi obserwacjami. Wyższe wartości twojej regularyzacji będą coraz bardziej „ograniczały” szacunki parametrów. Właśnie dlatego metody te mają nazwy takie jak „lasso” lub „siatka elastyczna”: ograniczają swobodę parametrów użytkownika w zakresie przemieszczania się i śledzenia danych.λ

(Piszę na ten temat mały artykuł, który, mam nadzieję, będzie raczej dostępny. Dodam link, gdy będzie dostępny).

S. Kolassa - Przywróć Monikę
źródło
4
Wydaje się, że kluczowym elementem układanki jest: dlaczego metody skurczu zmniejszają wariancję? (To, że wprowadzają pewne uprzedzenia, jest mniej lub bardziej oczywiste.) Po prostu stwierdzasz, że tak; czy możesz podać w tym trochę intuicji?
ameba mówi Przywróć Monikę
2
@Stephan Kolassa Tak więc dodanie terminu kary uwzględniającego wielkość współczynników dodaje nieco uprzedzeń, ale zmniejsza zmienność, ponieważ penalizuje duże współczynniki, które generalnie będą miały większą zmienność niż mniejsze współczynniki. Czy to jest poprawne? Zatem ostatecznie nie jesteśmy tak zaniepokojeni uzyskaniem „poprawnej” wartości dla konkretnego współczynnika, jesteśmy tylko zainteresowani ogólną zdolnością przewidywania modelu?
aspirującystatysta
2
@aspiringstatistician: Twoje drugie zdanie jest tuż przy znaku. (Przypomnijmy Georgeowi Boxowi o „złych, ale przydatnych” modelach). Nie martwiłbym się aż tak bardzo tym, czy szacunki dużych parametrów są zmniejszone bardziej niż małe. Po pierwsze, będzie to zależeć od standaryzacji. Po drugie, jeśli twoje duże wartości parametrów są dobrze oszacowane (tj. Z niskim błędem), to niekoniecznie muszą się znacznie zmniejszać. Regulararyzacja „woli” zmniejszyć te parametry, które są źle zdefiniowane, tj. Mają dużą wariancję.
S. Kolassa - Przywróć Monikę
3
+1. Powodzenia z gazetą! @aspiringstatistician: Bardzo dobra obserwacja na temat kurczenia się, nie zajmowania się uzyskaniem właściwego modelu; jest to dokładnie słuszne (i warte jest rozważenia): poprawnie określony model może mieć gorszą zdolność przewidywania niż normalizowany i „mniej prawdziwy” (przykład: patrz Załącznik na stronie 307 tego artykułu ).
ameba mówi Przywróć Monikę
7
+1. Chciałem tylko dodać, że chociaż pytanie dotyczyło intuicji stojącej za modelami znormalizowanymi, wydaje się nieco niekompletne, nie wspominając o pochodzeniu Bayesa tych modeli. Na przykład, porównując regresję grzbietu z prostym MLE, w większości aplikacji wydaje mi się naturalne, że efekt jest czerpany z rozkładu normalnego, a nie z rozkładu jednolitego (niewłaściwego). Zatem postrzeganie tych technik jako szczególnych przypadków szacowania MAP wyjaśnia, dlaczego należy wybrać regresję grzbietu.
jlimahaverford
10

Aby dodać coś do dobrej odpowiedzi @ Kolassa, całe pytanie dotyczące szacunków kurczenia się wiąże się z paradoksem Stein . W przypadku procesów wielowymiarowych z wektor średnich próbek jest niedopuszczalny. Innymi słowy, dla niektórych wartości parametrów istnieje inny estymator o niższym oczekiwanym ryzyku. Stein zaproponował jako przykład estymator skurczu. Mamy więc do czynienia z przekleństwem wymiarowości, ponieważ skurcz nie pomaga, gdy masz tylko 1 lub 2 niezależne zmienne.p3

Przeczytaj tę odpowiedź, aby uzyskać więcej. Najwyraźniej paradoks Stein'a związany jest ze znanym twierdzeniem, że proces ruchu Browna w 3 lub więcej wymiarach nie powtarza się (wędruje po całym miejscu bez powrotu do źródła), podczas gdy 1 i 2 wymiarowi Browny są powtarzalne.

Paradoks Stein'a obowiązuje niezależnie od tego, do czego się kurczysz, chociaż w praktyce lepiej jest, jeśli skurczysz się w kierunku prawdziwych wartości parametrów. Tak robią Bayesianie. Myślą, że wiedzą, gdzie jest prawdziwy parametr i kurczą się w jego kierunku. Następnie twierdzą, że Stein potwierdza ich istnienie.

Nazywa się to paradoksem właśnie dlatego, że podważa naszą intuicję. Jeśli jednak pomyślisz o ruchu Browna, jedynym sposobem na uzyskanie ruchu 3D Browna w celu powrotu do miejsca początkowego byłoby nałożenie kary tłumienia na stopnie. Estymator skurczu narzuca również rodzaj szacunku na szacunki (zmniejsza wariancję), dlatego działa.

Placidia
źródło
Czy masz odniesienie do związku między paradoksem Steina a procesami Browna?
kjetil b halvorsen
1
Kliknij mój link pod „Przeczytaj tę odpowiedź, aby uzyskać więcej”. W odpowiedzi znajduje się link do dokumentu, który nawiązuje połączenie.
Placidia
estymatory bayesowskie są dopuszczalne przez pełne twierdzenie klasowe: nie ma to nic wspólnego z estymatorem JS. Jednak wynik, że JS dominuje średnią próbną, sprawił, że ludzie byli bardziej zainteresowani badaniem estymatorów Bayesa. (Sprzeciwiam się twierdzeniu, że bayesianie „twierdzą, że Stein potwierdza ich istnienie”)
user795305