Przykład Steina pokazuje, że oszacowanie maksymalnego prawdopodobieństwa zmiennych o rozkładzie normalnym ze średnimi i wariancjami jest niedopuszczalne (pod funkcją straty kwadratowej) iff . Aby uzyskać dobry dowód, zobacz pierwszy rozdział Wnioskowania na dużą skalę: empiryczne metody Bayesa do szacowania, testowania i przewidywania autorstwa Bradleya Effrona.
Moje pytanie brzmi raczej: jakiej właściwości wymiarowej przestrzeni (dla ) brakuje co ułatwia przykład Steina? Możliwe odpowiedzi mogą dotyczyć krzywizny sfery lub czegoś zupełnie innego.n ≥ 3 R 2 n
Innymi słowy, dlaczego MLE jest dopuszczalny w ?
Edycja 1: W odpowiedzi na obawy @mpiktas o 1.31 wynikające z 1.30:
Edycja 2 : W tym artykule Stein udowadnia, że MLE jest dopuszczalny dla .
Odpowiedzi:
Dychotomia między przypadkami i dla dopuszczalności MLE średniej wymiarowej wielowymiarowej normalnej zmiennej losowej jest z pewnością szokująca.d ≥ 3 dd<3 d≥3 d
Istnieje inny bardzo znany przykład prawdopodobieństwa i statystyki, w którym istnieje dychotomia między przypadkami i . Jest to ponowny prosty losowy spacer po kratce . To znaczy, prosty wymiarowy wymiarowy jest powtarzalny w 1 lub 2 wymiarach, ale jest przejściowy w wymiarach . Obowiązuje również analog czasu ciągłego (w postaci ruchu Browna).d ≥ 3 Z d d d ≥ 3d<3 d≥3 Zd d d≥3
Okazuje się, że oba są ze sobą ściśle powiązane.
Larry Brown udowodnił, że dwa pytania są zasadniczo równoważne. Oznacza to, że najlepszy niezmienny estymator o wymiarową wielowymiarowej normalnym średnim wektora jest dopuszczalna wtedy i tylko wtedy, gdy wymiarową Browna jest okresowe.ddμ^≡μ^(X)=X d d
W rzeczywistości jego wyniki idą znacznie dalej. Dla każdego sensownego (tj. Uogólnionego estymatora Bayesa) z ograniczonym (uogólnionym) ryzykiem , istnieje wyraźne (!) Odpowiadające wymiarowe rozproszenie, tak że estymator jest dopuszczalny wtedy i tylko wtedy, gdy odpowiadająca mu dyfuzja jest powtarzalna.L2d ˜ μμ~≡μ~(X) L2 d μ~
Lokalny Średni tej dyfuzji jest zasadniczo taka rozbieżność między tymi dwoma estymatorów, czyli i kowariancja dyfuzji jest . Z tego łatwo zauważyć, że w przypadku MLE odzyskujemy (przeskalowaliśmy) ruch Browna.μ~−μ^ 2I μ~=μ^=X
Tak więc, w pewnym sensie, możemy spojrzeć na kwestię dopuszczalności przez pryzmat procesów stochastycznych i użyć dobrze zbadanych właściwości dyfuzji, aby dojść do pożądanych wniosków.
Bibliografia
źródło
@cardinal dał świetną odpowiedź (+1), ale cały problem pozostaje tajemniczy, chyba że znamy dowody (a ja nie). Myślę więc, że pozostaje pytanie, co jest intuicyjnym powodem, dla którego paradoks Stein'a nie pojawia się w i .R R2
Bardzo pomocna jest dla mnie perspektywa regresji przedstawiona w Stephen Stigler, 1990, A Galtonian Perspective on Shrinkage Estimators . Rozważ niezależne pomiary , z których każdy mierzy pewne podstawowe (nieobserwowane) i pobiera próbki z . Gdybyśmy w jakiś sposób znali , moglibyśmy stworzyć wykres rozproszenia par :Xi θi N(θi,1) θi (Xi,θi)
Linia ukośna odpowiada zerowemu szumowi i doskonałemu oszacowaniu; w rzeczywistości hałas jest niezerowy, a zatem punkty są przesunięte względem linii ukośnej w kierunku poziomym . Odpowiednio, może być postrzegane jako linia regresji na . Znamy jednak i chcemy oszacować , więc powinniśmy raczej rozważyć linię regresji na - która będzie miała inne nachylenie, odchylone w poziomie , jak pokazano na rysunku (linia przerywana).θ=X θ=X X θ X θ θ X
Cytując z pracy Stiglera:
A teraz pojawia się kluczowy bit (wyróżnienie dodane):
Myślę, że to wyjaśnia, co jest specjalnego w i .k = 2k=1 k=2
źródło