Na tej stronie jest już post mówiący o tym samym problemie: Dlaczego działa skurcz?
Ale mimo że odpowiedzi są popularne, nie sądzę, aby sedno pytania zostało naprawdę rozwiązane. Oczywiste jest, że wprowadzenie błędu systematycznego w estymacji powoduje zmniejszenie wariancji i może poprawić jakość estymacji. Jednak:
1) Dlaczego szkody wyrządzone przez wprowadzenie uprzedzeń są mniejsze w porównaniu ze wzrostem wariancji?
2) Dlaczego to zawsze działa? Na przykład w przypadku regresji Ridge'a: twierdzenie o istnieniu
3) Co jest takiego interesującego w 0 (pochodzeniu)? Oczywiście możemy skurczyć się w dowolnym miejscu (np. Estymator Stein ), ale czy będzie działać tak dobrze, jak jego pochodzenie?
4) Dlaczego różne uniwersalne schematy kodowania preferują mniejszą liczbę bitów wokół źródła? Czy te hipotezy są po prostu bardziej prawdopodobne?
Oczekuje się odpowiedzi z odniesieniami do sprawdzonych twierdzeń lub ustalonych wyników.
źródło
Odpowiedzi:
To nie musi, to po prostu zwykle jest. To, czy warto go wymienić, zależy od funkcji straty. Ale rzeczy, na których nam zależy w życiu, są często podobne do błędu kwadratu (np. Bardziej zależy nam na jednym dużym błędzie niż na dwóch błędach o połowę mniejszych).
Jako kontrprzykład - wyobraź sobie, że w przypadku przyjęć do college'u zmniejszamy wyniki SAT ludzi w stosunku do średniej SAT dla ich demografii (jakkolwiek zdefiniowanej). Jeśli zostanie to właściwie wykonane, zmniejszy to wariancję i średni kwadratowy błąd w szacunkach (pewnego rodzaju) zdolności osoby podczas wprowadzania uprzedzeń. Większość ludzi twierdzi, że taki kompromis jest niedopuszczalny.
Myślę, że dzieje się tak, ponieważ zwykle zmniejszamy współczynniki lub oszacowania efektów. Istnieją powody, by sądzić, że większość efektów nie jest duża (patrz np. Ujęcie Andrew Gelmana ). Jednym ze sposobów jest to, że świat, w którym wszystko wpływa na wszystko z silnym skutkiem, jest brutalnym nieprzewidywalnym światem. Ponieważ nasz świat jest wystarczająco przewidywalny, aby pozwolić nam żyć długo i budować półstabilne cywilizacje, wynika z tego, że większość efektów nie jest duża.
Ponieważ większość efektów nie jest duża, przydatne jest nieprawidłowe pomniejszenie kilku naprawdę dużych, a jednocześnie prawidłowe zmniejszenie mnóstwa efektów nieznaczących.
Wierzę, że to tylko własność naszego świata i prawdopodobnie moglibyście zbudować samowystarczalne światy, w których skurcz nie jest praktyczny (najprawdopodobniej przez uczynienie błędu średniej kwadratowej niepraktyczną funkcją straty). To po prostu nie jest świat, w którym żyjemy.
Z drugiej strony, kiedy myślimy o skurczu jako wcześniejszym rozkładzie w analizie Bayesa, istnieją przypadki, w których skurcz do 0 jest aktywnie szkodliwy w praktyce.
Jednym z przykładów jest skala długości w procesach gaussowskich (gdzie 0 jest problematyczne). Zaleceniem w podręczniku Stana jest użycie przedrostka, który zbliża nieznaczną wagę do zera, tj. Skutecznie „zmniejsza” małe wartości od zera. Podobnie zalecane priory dla dyspersji w ujemnym rozkładzie dwumianowym skutecznie kurczą się od zera. I na koniec, ilekroć rozkład normalny jest precyzyjnie parametryzowany (jak w INLA), przydatne jest użycie odwrotnej gamma lub innych wcześniejszych rozkładów, które zmniejszają się od zera.
źródło
Grzbiet, lasso i siatka elastyczna są podobne do metod bayesowskich z priorytetami wyśrodkowanymi na zera - patrz na przykład Statystyczna nauka ze sparitysem Hastiego, Tibshirani i Wainwrighta, rozdział
2.9 Lq Penalties and Bayes Estimates
: „Istnieje również bayesowski pogląd na te estymatory. ... Oznacza to, że oszacowanie lasso jest estymatorem Bayesian MAP (maksymalne aposteriori) przy użyciu wcześniejszego Laplaciana. ”Jednym ze sposobów na odpowiedź na twoje pytanie (
what's so special about zero?
) jest to, że szacowane przez nas efekty wynoszą średnio zero, i wydają się być niewielkie (tj. Nasze priorytety powinny być wyśrodkowane wokół zera). Zmniejszenie wartości szacunkowych do zera jest wówczas optymalne w sensie bayesowskim, a przez tę soczewkę można myśleć o lasso, grzbiecie i elastycznych sieciach.źródło