Intuicja stojąca za tym, dlaczego paradoks Stein'a dotyczy tylko wymiarów

Przykład Steina pokazuje, że oszacowanie maksymalnego prawdopodobieństwa $n$ zmiennych o rozkładzie normalnym ze średnimi $\mu_1,\ldots,\mu_n$ i wariancjami $1$ jest niedopuszczalne (pod funkcją straty kwadratowej) iff $n\ge 3$ . Aby uzyskać dobry dowód, zobacz pierwszy rozdział Wnioskowania na dużą skalę: empiryczne metody Bayesa do szacowania, testowania i przewidywania autorstwa Bradleya Effrona.

$x \sim \mathcal N(\mu,1)$ $\mathbb{E}\|x\|^2\approx \|\mu\|^2+n$

Moje pytanie brzmi raczej: jakiej właściwości wymiarowej przestrzeni (dla ) brakuje co ułatwia przykład Steina? Możliwe odpowiedzi mogą dotyczyć krzywizny sfery lub czegoś zupełnie innego. $n$ $n\ge 3$ $\mathbb{R}^2$ $n$

Innymi słowy, dlaczego MLE jest dopuszczalny w ? $\mathbb{R}^2$

Edycja 1: W odpowiedzi na obawy @mpiktas o 1.31 wynikające z 1.30:

E_{μ} (‖ z - \hat{μ} ‖^{2}) = E_{μ} (S {(\frac{N - 2}{S})}^{2}) = E_{μ} (\frac{(N - 2)^{2}}{S}) .

$E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right).$

\hat{μ_{i}} = (1 - \frac{N - 2}{S}) z_{i}

$\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_i$ więc

E_{μ} (\frac{\partial \hat{μ_{i}}}{\partial z_{i}}) = E_{μ} (1 - \frac{N - 2}{S} + 2 \frac{z_{i}^{2}}{S^{2}}) .

$E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).$ Dlatego mamy:

2 \sum_{i = 1}^{N} E_{μ} (\frac{\partial \hat{μ_{i}}}{\partial z_{i}}) = 2 N - 2 E_{μ} (\frac{N (N - 2)}{S}) + 4 E_{μ} (\frac{(N - 2)}{S}) = 2 N - E_{μ} \frac{2 (N - 2)^{2}}{S} .

$2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}.$

Edycja 2 : W tym artykule Stein udowadnia, że MLE jest dopuszczalny dla $N=2$ .

maximum-likelihood unbiased-estimator intuition steins-phenomenon Har
źródło

@mpiktas Nie jest tak niestosowne, jak się wydaje. Sytuacja jest podobna do ANOVA po zastosowaniu redukcji wystarczalności. Wskazuje to, że zwykłe oszacowania ANOVA średnich dla grupy są niedopuszczalne, pod warunkiem, że staramy się oszacować średnie dla więcej niż 3 grup (co okazuje się być prawdą). Poleciłbym przyjrzeć się dowodom, że MLE jest dopuszczalny dla i zobaczyć, gdzie zawodzą przy próbie rozszerzenia do zamiast po prostu spojrzeć na dowody, że estymator Stein robi to, co twierdzi, co jest łatwe raz. masz na myśli estymator.

N = 1, 2

$N = 1, 2$

N = 3

$N = 3$

facet

... i umiesz używać Lemmy Stein'a. Wydaje mi się, że jest to trochę mniej proste niż 6 minut temu.

facet

Zgadzam się. Czy masz jakieś dobre referencje (oprócz oryginału). Uważam, że oryginalny artykuł Stein'a był zbyt obliczeniowy i miałem nadzieję, że ktoś opracuje inną metodę w ciągu ostatnich pięćdziesięciu lat.

Har

Dowiedziałem się, że nauczono mnie Browna i Hwanga z 1983 r., W którym, jak sądzę, zastosowano metodę sugerowaną przez Blytha z wczesnych lat 50. Jest dość ogólny (bardziej ogólny niż wynik Stein, ponieważ działa dla wykładniczej rodziny) i, jak sądzę, całkiem różny od Steina. Ale to nie jest trywialne.

facet

@Har świetne pytanie! (+1)

suncoolsu

Odpowiedzi:

Dychotomia między przypadkami i dla dopuszczalności MLE średniej wymiarowej wielowymiarowej normalnej zmiennej losowej jest z pewnością szokująca. $d < 3$ $d \geq 3$ $d$

Istnieje inny bardzo znany przykład prawdopodobieństwa i statystyki, w którym istnieje dychotomia między przypadkami i . Jest to ponowny prosty losowy spacer po kratce . To znaczy, prosty wymiarowy wymiarowy jest powtarzalny w 1 lub 2 wymiarach, ale jest przejściowy w wymiarach . Obowiązuje również analog czasu ciągłego (w postaci ruchu Browna). $d < 3$ $d \geq 3$ $\mathbb{Z}^d$ $d$ $d \geq 3$

Okazuje się, że oba są ze sobą ściśle powiązane.

Larry Brown udowodnił, że dwa pytania są zasadniczo równoważne. Oznacza to, że najlepszy niezmienny estymator o wymiarową wielowymiarowej normalnym średnim wektora jest dopuszczalna wtedy i tylko wtedy, gdy wymiarową Browna jest okresowe. $\hat{\mu} \equiv \hat{\mu}(X) = X$ $d$ $d$

W rzeczywistości jego wyniki idą znacznie dalej. Dla każdego sensownego (tj. Uogólnionego estymatora Bayesa) z ograniczonym (uogólnionym) ryzykiem , istnieje wyraźne (!) Odpowiadające wymiarowe rozproszenie, tak że estymator jest dopuszczalny wtedy i tylko wtedy, gdy odpowiadająca mu dyfuzja jest powtarzalna. $\tilde{\mu} \equiv \tilde{\mu}(X)$ $L_2$ $d$ $\tilde{\mu}$

Lokalny Średni tej dyfuzji jest zasadniczo taka rozbieżność między tymi dwoma estymatorów, czyli i kowariancja dyfuzji jest . Z tego łatwo zauważyć, że w przypadku MLE odzyskujemy (przeskalowaliśmy) ruch Browna. $\tilde{\mu} - \hat{\mu}$ $2 I$ $\tilde{\mu} = \hat{\mu} = X$

Tak więc, w pewnym sensie, możemy spojrzeć na kwestię dopuszczalności przez pryzmat procesów stochastycznych i użyć dobrze zbadanych właściwości dyfuzji, aby dojść do pożądanych wniosków.

Bibliografia

L. Brown (1971). Dopuszczalne estymatory, powtarzające się dyfuzje i nierozpuszczalne problemy z wartością graniczną . Ann. Matematyka Stat. , vol. 42, nr 3, s. 855–903.
RN Bhattacharya (1978). Kryteria ponownego wystąpienia i istnienia niezmiennych miar dla dyfuzji wielowymiarowych . Ann. Prob. , vol. 6, nr 4, 541–553.

kardynał
źródło

Właściwie to coś takiego miałem nadzieję. Związek z inną dziedziną matematyki (geometria różniczkowa lub procesy stochastyczne), która pokazuje, że dopuszczalność dla nie była tylko przypadkiem. Świetna odpowiedź!

n = 2

$n=2$

Har

Zainspirowany twoją odpowiedzią, podałem

Henry.L

@cardinal dał świetną odpowiedź (+1), ale cały problem pozostaje tajemniczy, chyba że znamy dowody (a ja nie). Myślę więc, że pozostaje pytanie, co jest intuicyjnym powodem, dla którego paradoks Stein'a nie pojawia się w i . $\mathbb R$ $\mathbb R^2$

Bardzo pomocna jest dla mnie perspektywa regresji przedstawiona w Stephen Stigler, 1990, A Galtonian Perspective on Shrinkage Estimators . Rozważ niezależne pomiary , z których każdy mierzy pewne podstawowe (nieobserwowane) i pobiera próbki z . Gdybyśmy w jakiś sposób znali , moglibyśmy stworzyć wykres rozproszenia par : $X_i$ $\theta_i$ $\mathcal N(\theta_i, 1)$ $\theta_i$ $(X_i, \theta_i)$

Paradoks Stein'a: perspektywa regresji

Linia ukośna odpowiada zerowemu szumowi i doskonałemu oszacowaniu; w rzeczywistości hałas jest niezerowy, a zatem punkty są przesunięte względem linii ukośnej w kierunku poziomym . Odpowiednio, może być postrzegane jako linia regresji na . Znamy jednak i chcemy oszacować , więc powinniśmy raczej rozważyć linię regresji na - która będzie miała inne nachylenie, odchylone w poziomie , jak pokazano na rysunku (linia przerywana). $\theta = X$ $\theta = X$ $X$ $\theta$ $X$ $\theta$ $\theta$ $X$

Cytując z pracy Stiglera:

Ta galtonowska perspektywa paradoksu Stein czyni z niej niemal przejrzystą. „Zwykłe” estymatory pochodzą od teoretycznej linii regresji on . Ta linia byłaby przydatna, gdyby naszym celem było przewidywanie z , ale nasz problem jest odwrotny, mianowicie przewidywanie z za pomocą sumy błędów kwadratowych jako kryterium. Dla tego kryterium optymalne estymatory liniowe są podane przez linię regresji najmniejszych kwadratów na $\hat \theta_i^0 = X_i$ $X$ $\theta$ $X$ $\theta$ $\theta$ $X$ $\sum (\theta_i - \hat \theta_i)^2$ $\theta$ $X$ , a estymatory Jamesa-Steina i Efrona-Morrisa same są estymatorami tego optymalnego estymatora liniowego. „Zwykłe” estymatory pochodzą z niewłaściwej linii regresji, estymatory Jamesa-Steina i Efrona-Morrisa pochodzą z aproksymacji do właściwej linii regresji.

A teraz pojawia się kluczowy bit (wyróżnienie dodane):

Możemy nawet zobaczyć dlaczego jest konieczne: jeśli lub , najmniej linia kwadratów na musi przechodzić przez punkty , a tym samym dla lub , w dwie linie regresji ( na i na ) muszą się zgadzać na każdym . $k\ge 3$ $k=1$ $2$ $\theta$ $X$ $(X_i, \theta_i)$ $k=1$ $2$ $X$ $\theta$ $\theta$ $X$ $X_i$

Myślę, że to wyjaśnia, co jest specjalnego w i . $k=1$ $k=2$

ameba mówi Przywróć Monikę
źródło