Dlaczego estymator Jamesa-Steina nazywany jest estymatorem „skurczu”?

19

Czytałem o estymatorze Jamesa-Steina. W tych uwagach jest zdefiniowany jako

θ^=(1p2X2)X

Przeczytałem dowód, ale nie rozumiem następującego oświadczenia:

Geometrycznie estymator Jamesa-Steina zmniejsza każdy składnik kierunku początku ...X

Co dokładnie oznacza „zmniejsza każdy składnik X kierunku źródła”? Myślałem o czymś takim jak

θ^02<X02,
co jest prawdą w tym przypadku, dopóki (p+2)<X2 , ponieważ
θ^=X2(p+2)X2X.

Czy to mają na myśli ludzie, gdy mówią „skurczyć się do zera”, ponieważ w sensie normy L2 estymator JS jest bliższy zeru niż X ?

Aktualizacja z 22/09/2017 : Dziś zdałem sobie sprawę, że być może nadmiernie komplikuję sprawy. Wygląda na to, że ludzie naprawdę mają na myśli to, że po pomnożeniu X przez coś mniejszego niż 1 , a mianowicie termin X2(p+2)X2 , każdy składnik X będzie mniejszy niż kiedyś.

3x89g2
źródło

Odpowiedzi:

31

Zdjęcie jest czasem warte tysiąca słów, więc pozwólcie, że podzielę się jednym z tobą. Poniżej znajduje się ilustracja pochodząca z artykułu Bradleya Efrona (1977) w paradoksie statystycznym Steina . Jak widać, estymator Stein przenosi każdą z wartości bliżej wielkiej średniej. Powoduje to, że wartości większe niż średnia średnia są mniejsze, a wartości mniejsze niż średnia średnia - większe. Przez skurczenie rozumiemy przesuwanie wartości w kierunku średniej lub w niektórych przypadkach do zera - jak regresja regularna - co zmniejsza parametry do zera.

Ilustracja estymatora Stein z Efron (1977)

Oczywiście nie chodzi tylko o samo skurczenie się, ale udowodnili także Stein (1956) i James i Stein (1961) , że estymator Stein dominuje w estymatorze maksymalnego prawdopodobieństwa pod względem błędu kwadratowego całkowitego,

Eμ(μ^JSμ2)<Eμ(μ^MLEμ2)

gdzie , jest estymatorem Stein'a, a , gdzie oba estymatory są szacowane na próbce . Dowody są podane w oryginalnych artykułach i dodatku do artykułu, do którego się odwołujesz. W prostym języku angielskim pokazali, że jeśli jednocześnie zgadujesz, to pod względem całkowitego błędu kwadratu lepiej byś je zmniejszył, niż pozostawiając początkowe domysły.μ=(μ1,μ2,,μp)μ^iJSμ^iMLE=xix1,x2,,xpp>2

Wreszcie estymator Steina z pewnością nie jest jedynym estymatorem, który daje efekt skurczu. Aby zapoznać się z innymi przykładami, możesz sprawdzić ten wpis na blogu lub odnośną książkę analizy danych bayesowskich autorstwa Gelmana i in. Możesz także sprawdzić wątki dotyczące regresji regularnej, np. Jaki problem rozwiązują metody skurczu? lub Kiedy stosować metody regularyzacji do regresji? , dla innych praktycznych zastosowań tego efektu.

Tim
źródło
Artykuł wydaje się pomocny i przeczytam go. Zaktualizowałem moje pytanie, aby dokładniej wyjaśnić moje przemyślenia. Czy mógłbyś rzucić okiem? Dzięki!
3x89g2,
2
@Tim Myślę, że argument Misakowa jest uzasadniony, ponieważ estymator Jamesa-Steina przybliża estymator do zera niż MLE. Zero odgrywa centralną i centralną rolę w tym estymatorze i można skonstruować estymatory Jamesa-Steina, które kurczą się w kierunku innych centrów lub nawet podprzestrzeni (jak w George, 1986). Na przykład Efron i Morris (1973) kurczą się w kierunku wspólnej średniej, która wynosi diagonalną podprzestrzeń. θ
Xi'an