W statystyce klasycznej istnieje definicja, że statystyka zbioru danych jest zdefiniowana jako kompletna dla parametru nie jest możliwe sformułowanie z niej obiektywnego estymatora sposób nietrwały. Oznacza to, że jedynym sposobem na uzyskanie dla wszystkich jest prawie na pewno równe .
Czy kryje się za tym intuicja? Wydaje się, że jest to raczej mechaniczny sposób zdefiniowania tego, zdaję sobie sprawę, że już o to pytano, ale zastanawiałem się, czy istniała bardzo łatwa do zrozumienia intuicja, która ułatwiłaby studentom wprowadzającym łatwiejsze przyswojenie materiału.
mathematical-statistics
intuition
unbiased-estimator
definition
complete-statistics
użytkownik1398057
źródło
źródło
Odpowiedzi:
Spróbuję dodać do drugiej odpowiedzi. Po pierwsze, kompletność jest warunkiem technicznym, który jest głównie uzasadniony twierdzeniami, które go wykorzystują. Zacznijmy od pokrewnych pojęć i twierdzeń, w których występują.
NiechX=(X1,X2,…,Xn) reprezentuje wektor danych idid, który modelujemy jako mający rozkład f(x;θ),θ∈Θ gdzie parametr θ rządzący danymi jest nieznany. T=T(X) jest wystarczające, jeśli rozkład warunkowy X∣T nie zależy od parametru θ . V=V(X) jestpomocnicze,jeśli rozkładV nie zależy odθ (w rodzinief(x;θ) ). U=U(X) jestobiektywnym estymatorem zerowym,jeśli jego oczekiwanie wynosi zero, niezależnie odθ . S=S(X) jestkompletną statystyką,jeśli jakikolwiek obiektywny estymator zera oparty naS jest identycznie zerowy, to znaczy, jeśliEg(S)=0(for all θ) a następnieg(S)=0 ae (dla wszystkichθ ).
Załóżmy teraz, że masz dwa różne obiektywne estymatoryθ oparte na wystarczającej statystyce T , g1(T),g2(T) . Oznacza to, że w symbolach
Eg1(T)=θ,Eg2(T)=θ
iP(g1(T)≠g2(T))>0 (dla wszystkichθ ). Zatemg1(T)−g2(T) jest obiektywnym estymatorem zera, który nie jest identyczny zero, co dowodzi, żeT nie jest kompletny. Tak więc kompletność wystarczającej statystykiT daje nam do zrozumienia, że istnieje tylko jeden unikalny obiektywny estymatorθ na podstawie T . Jest to już bardzo zbliżone do twierdzenia Lehmanna – Scheffégo.
Spójrzmy na kilka przykładów. Załóżmy, żeX1,…,Xn są teraz identyczne w przedziale (θ,θ+1) . Możemy pokazać, że ( X(1)<X(2)<⋯<X(n) jest statystyką rzędu) para (X(1),X(n)) jest wystarczająca, ale nie jest kompletna, ponieważ różnica X(n)−X(1) jest pomocniczy, możemy obliczyć jego oczekiwanie, niech to będziec (co jest funkcjątylkon ), a następnieX(n)−X(1)−c będzie bezstronnym estymatorem zera która nie jest identycznie zerowa. Zatem nasza wystarczająca statystyka w tym przypadku nie jest kompletna i wystarczająca. I widzimy, co to oznacza: istnieją funkcje wystarczającej statystyki, które nie są pouczające oθ (w kontekście modelu). Nie może się to zdarzyć przy pełnej wystarczającej statystyce; jest w pewnym sensie maksymalnie informacyjny, ponieważ żadna z jego funkcji nie jest pozbawiona informacji. Z drugiej strony, jeśli istnieje funkcja minimalnie wystarczającej statystyki, która ma oczekiwane zero, która mogłaby być postrzegana jako składnik szumu , warunki zakłócenia / hałasu w modelach mają oczekiwanie zerowe. Można więc powiedzieć, że niekompletne wystarczające statystyki zawierają pewien szum .
Spójrz ponownie na zakresR=X(n)−X(1) w tym przykładzie. Ponieważ jego dystrybucja nie zależy od θ , sama w sobie nie zawiera żadnych informacji o θ . Ale wraz z wystarczającą statystyką tak się dzieje! W jaki sposób? Spójrz na przypadek, w którym zaobserwowano R=1 Następnie, w kontekście naszego (znanego jako prawdziwy) modelu, mamy doskonałą wiedzę na temat θ ! Mianowicie możemy z całą pewnością powiedzieć, że θ=X(1) . Możesz sprawdzić, czy jakakolwiek inna wartość dla θ następnie prowadzi do tego, że X(1) lub X(n) są niemożliwą obserwacją, zgodnie z założonym modelem. Z drugiej strony, jeśli obserwujemy R=0.1 , wówczas zakres możliwych wartości θ jest raczej duży (ćwiczenie ...).
W tym sensie statystyka pomocniczaR zawiera pewne informacje o dokładności, z jaką możemy oszacować θ na podstawie tych danych i modelu. W tym przykładzie i innych statystyka pomocnicza R „przejmuje rolę wielkości próby”. Zwykle przedziały ufności i takie wymagają wielkości próby n , ale w tym przykładzie możemy zrobić warunkowy przedział ufności, który jest obliczany przy użyciu tylko R , a nie n (ćwiczenie). To była idea Fishera, że wnioskowanie powinno być uwarunkowane niektóre statystyki pomocnicze.
Twierdzenie Basu: jeśliT jest całkowicie wystarczające, to jest niezależne od jakiejkolwiek statystyki pomocniczej. Oznacza to, że wnioskowanie na podstawie pełnej wystarczającej statystyki jest prostsze, ponieważ nie musimy brać pod uwagę wnioskowania warunkowego. Uzależnienie od statystyki niezależnej od T niczego nie zmienia.
Następnie ostatni przykład, aby dać trochę więcej intuicji. Zmień przykład naszego rozkładu równomiernego na rozkład równomierny w przedziale(θ1,θ2) (z θ1<θ2 ). W tym przypadku statystyki (X(1),X(n)) są kompletne i wystarczające. Co się zmieniło? Widzimy, że kompletność jest naprawdę własnością modelu. W pierwszym przypadku mieliśmy ograniczoną przestrzeń parametrów. To ograniczenie zniszczyło kompletność, wprowadzając relacje w statystykach zamówień. Usuwając to ograniczenie, otrzymaliśmy kompletność! W pewnym sensie brak kompletności oznacza, że przestrzeń parametrów nie jest wystarczająco duża, a powiększając ją możemy mieć nadzieję na przywrócenie kompletności (a tym samym łatwiejsze wnioskowanie).
Niektóre inne przykłady, w których brak kompletności jest spowodowany ograniczeniami przestrzeni parametrów,
zobacz moją odpowiedź na: Jakiego rodzaju informacjami są informacje Fishera?
NiechX1,…,Xn będzie oznaczony jako Cauchy(θ,σ) (model w skali lokalizacji). Następnie statystyki zamówień są wystarczające, ale niekompletne. Ale teraz powiększyć ten model do pełni nieparametrycznego modelu, nadal IID ale z jakiegoś zupełnie nieokreślonym rozkładzie F . Statystyki zamówień są wystarczające i kompletne.
W przypadku rodzin wykładniczych z kanoniczną przestrzenią parametrów (czyli tak dużą, jak to możliwe) minimalna wystarczająca statystyka jest również kompletna. Ale w wielu przypadkach wprowadzenie ograniczeń przestrzeni parametrów, jak w przypadku zakrzywionych rodzin wykładniczych , niszczy kompletność.
Bardzo istotnym artykułem jest Interpretacja kompletności i twierdzenie Basu.
źródło
Pewna intuicja może być dostępna w teorii najlepszych obiektywnych estymatorów (minimalna wariancja).
Jeśli to W jest najlepszym obiektywnym estymatorem τ ( θ ) iff W jest nieskorelowane ze wszystkimi obiektywnymi estymatorami zero.EθW=τ(θ) W τ(θ) W
Dowód : Niech będzie obiektywnym estymatorem nieskorelowanym ze wszystkimi obiektywnymi estymatorami zero. Niech W ′ będzie kolejnym estymatorem, tak że E θ W ′ = E θ W = τ ( θ ) . Napisz W ′ = W + ( W ′ - W ) . Z założenia V a r θ W ′ = V a r θ W + V a r θ (W W′ EθW′=EθW=τ(θ) W′=W+(W′−W) . W związku z tym, dla każdego W ' , V R θ W ' ≥ V R θ W .VarθW′=VarθW+Varθ(W′−W) W′ VarθW′≥VarθW
Załóżmy teraz, że jest najlepszym obiektywnym estymatorem. Niech będzie jakiś inny estymator U o E θ U = 0 . ϕ a : = W + a U jest również bezstronny dla τ ( θ ) . Mamy V a r θ ϕ a : = V a r θ W + 2 a C o v θ ( W , U ) + a 2W U EθU=0 ϕa:=W+aU τ(θ)
Gdyby nie było θ 0 ∈ Θ taki sposób, C O V θ 0 ( W , U ) < 0 , to otrzymujemy V do R θ cp < V R θ W za pomocą ∈ ( 0 , - 2 C o v θ 0 ( W , U ) / V a
Intuicyjnie wynik mówi, że jeśli estymator jest optymalny, nie może być możliwe jego ulepszenie poprzez dodanie do niego trochę szumu, w sensie połączenia go z estymatorem, który jest średnio tylko zerowy (będąc obiektywnym estymatorem zerowym ).
Niestety trudno jest scharakteryzować wszystkie obiektywne estymatory zera. Sytuacja staje się znacznie prostsza, jeśli samo zero jest jedynym obiektywnym estymatorem zera, ponieważ każda statystyka spełnia C o v θ ( W , 0 ) = 0 . Kompletność opisuje taką sytuację.W Covθ(W,0)=0
źródło