Dlaczego wystarczająca statystyka zawiera wszystkie informacje potrzebne do obliczenia oszacowania parametru?

16

Właśnie zacząłem studiować statystyki i nie mogę intuicyjnie zrozumieć wystarczalności. Mówiąc ściślej, nie rozumiem, jak pokazać, że następujące dwa akapity są równoważne:

Z grubsza, biorąc pod uwagę zestaw X niezależnych identycznie rozmieszczonych danych uwarunkowanych nieznanym parametrem θ, wystarczającą statystyką jest funkcja T (X), której wartość zawiera wszystkie informacje potrzebne do obliczenia dowolnej oceny parametru.

Statystyka T (X) jest wystarczająca dla parametru bazowego θ właśnie wtedy, gdy rozkład prawdopodobieństwa warunkowego danych X, biorąc pod uwagę statystykę T (X), nie zależy od parametru θ.

(Wziąłem cytaty z wystarczającej statystyki )

Chociaż rozumiem drugie stwierdzenie i mogę użyć twierdzenia faktoryzacji, aby pokazać, czy dana statystyka jest wystarczająca, nie rozumiem, dlaczego statystyka z taką właściwością ma również właściwość, że „zawiera wszystkie informacje potrzebne do obliczenia dowolnej oszacowanie parametru ". Nie szukam formalnego dowodu, który pomógłby i tak udoskonalić moje zrozumienie, chciałbym uzyskać intuicyjne wyjaśnienie, dlaczego te dwa stwierdzenia są równoważne.

Podsumowując, moje pytania brzmią: dlaczego te dwa stwierdzenia są równoważne? Czy ktoś mógłby podać intuicyjne wyjaśnienie swojej równoważności?

gcoll
źródło
1
Główną intuicyjną ideą jest to, że czasami nie trzeba widzieć całej próbki, ponieważ można znaleźć statystyki podsumowujące wszystkie potrzebne informacje z próbki. Weźmy na przykład rozkład dwumianowy: wszystko, co musisz wiedzieć o swoim modelu, to suma sukcesów. Państwo nie tracą niczego wartościowego, jeśli tylko powiedzieć, że , zamiast pokazując cały zestaw wartości próbą x = { 1 , 0 , 0 , 1 , 0 , 1 , . . . } . inxi=cx={1,0,0,1,0,1,...}
mugen
Rozumiem, dlaczego potrzebowałem wystarczających statystyk i jak pokazać, że suma sukcesów jest wystarczającą statystyką dla pw procesie Bernoulliego. Nie rozumiem, dlaczego statystyki takie jak te opisane w drugim akapicie zawierają wszystkie informacje potrzebne do obliczenia jakiejkolwiek oceny parametru.
gcoll
3
Ściśle mówiąc, pierwszy cytat jest po prostu błędny. Istnieje wiele estymatorów, które można obliczyć z całego zestawu danych, których nie można obliczyć wyłącznie na podstawie wystarczających statystyk. To jeden z powodów, dla których cytat zaczyna się „z grubsza”. Innym powodem jest to, że nie podaje ilościowej ani rygorystycznej definicji „informacji”. Ponieważ jednak w poprzednim akapicie podano znacznie dokładniejszą (ale wciąż intuicyjną) charakterystykę, nie ma problemu z tym cytatem we właściwym kontekście.
whuber
1
Ma związek z maksymalnym prawdopodobieństwem i jest to zasadniczo informacja potrzebna przy maksymalnym prawdopodobieństwie
Kamster
1
Po komentarzach Whuber i @Kamster prawdopodobnie lepiej zrozumiałem. Kiedy mówimy, że wystarczająca statystyka zawiera wszystkie informacje potrzebne do obliczenia dowolnego oszacowania parametru, czy faktycznie mamy na myśli, że wystarczy obliczyć estymator maksymalnego prawdopodobieństwa (który jest funkcją wszystkich wystarczających statystyk)? To prawda, że ​​kwestia ta była związana z (nie) definicją „informacji”, jak sugerował Whuber, i na moje pytanie udzielono odpowiedzi.
gcoll,

Odpowiedzi:

3

Po komentarzach @whuber i @Kamster prawdopodobnie lepiej zrozumiałem. Kiedy mówimy, że wystarczająca statystyka zawiera wszystkie informacje potrzebne do obliczenia dowolnego oszacowania parametru, to tak naprawdę rozumiemy, że wystarczy obliczyć estymator maksymalnego prawdopodobieństwa (który jest funkcją wszystkich wystarczających statystyk).

Biorąc pod uwagę, że odpowiadam na własne pytanie i dlatego nie jestem w 100% pewien, że udzielę odpowiedzi, nie oznaczę jej jako poprawnej, dopóki nie otrzymam opinii. Dodaj komentarz i oddaj głos, jeśli uważasz, że się mylę / niedokładnie / itd ...

(Daj mi znać, jeśli nie jest to zgodne z etykietą SE, ponieważ jest to moje pierwsze pytanie, proszę o ułaskawienie, jeśli naruszam jakąkolwiek zasadę)

gcoll
źródło
1

Studiując na temat wystarczalności, natknąłem się na twoje pytanie, ponieważ chciałem również zrozumieć intuicję dotyczącą tego, co zebrałem, to właśnie wymyśliłem (daj mi znać, co myślisz, jeśli popełniłem jakieś błędy itp.).

Niech będzie losową próbką z rozkładu Poissona ze średnią θ > 0 .X1,,Xnθ>0

Wiemy, że jest wystarczającą statystyką dla θ , ponieważ rozkład warunkowy X 1 , , X n dla T ( X ) jest wolny od θ , innymi słowy, nie zależy od θ .T(X)=i=1nXiθX1,,XnT(X)θθ

Teraz statystyk wie, że X 1 , , X n i . i . d ~ P O ı s s O n ( 4 ) i tworzy n = 400 przypadkowe wartości z tego rozkładu:A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Dla wartości, które stworzył statystyk , bierze je sumę i pyta statystyki B.AB :

„Mam te przykładowe wartości wzięte z rozkładu Poissona. Wiedząc, że n i = 1 x i = y = 4068x1,,xni=1nxi=y=4068 , co możesz mi powiedzieć o tym rozkładzie?”

Zatem sama wiedza o tym, że (oraz fakt, że próbka powstała z rozkładu Poissona) jest wystarczająca, aby statystyk B mógł powiedzieć cokolwiek na temat θi=1nxi=y=4068Bθ ? Ponieważ wiemy, że jest to wystarczająca statystyka, wiemy, że odpowiedź brzmi „tak”.

Aby dowiedzieć się więcej na temat tego znaczenia, wykonaj następujące czynności (zaczerpnięte z „Wprowadzenie do statystyki matematycznej” Hogga & Mckeana i Craiga, wydanie siódme, ćwiczenie 7.1.9):

decyduje się stworzyć kilka fałszywych obserwacji, które nazywa z 1 , z 2 , , z n (ponieważ wie, że prawdopodobnie nie będą one równe oryginalnym wartościom x ) w następujący sposób. Zauważa, że ​​warunkowe prawdopodobieństwo niezależnego Poissona zmienne losowe Z 1 , Z 2, Z n równe z 1 , z 2 , , z n , przy podanym z i = y , wynosiBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

Y=Zinθyn1/nByz1,,zn „.

Tak stwierdza ćwiczenie. Zróbmy dokładnie to:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

And let's see what Z looks like (I'm also plotting the real density of Poisson(4) for k=0,1,,13 - anything above 13 is pratically zero -, for comparison):

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

enter image description here

So, knowing nothing about θ and knowing only the sufficient statistic Y=Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).

Now, comparing X and Z|y:

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

enter image description here

We see that they are pretty similar, as well (as expected)

So, "for the purpose of making a statistical decision, we can ignore the individual random variables Xi and base the decision entirely on the Y=X1+X2++Xn" (Ash, R. "Statistical Inference: A concise course", page 59).

Gus_est
źródło
0

Let me give another perspective that may help. This is also qualitative, but there is a rigorous version of that particularly important in Information Theory - known as Markov property.

In the beginning, we have two objects, data (coming from a Random Variable, call it X) and parameter, θ (another rv, implicitly assumed since we are talking about its estimator). These two, are assumed to be dependent (otherwise, there is no point in trying to estimate one from the other). Now, the third object enters the game, Sufficient Statistic, T. The intuitive idea when we say T is enough to estimate θ really means that if we know T (ie conditioned on T), X provides no additional info, that is, X and θ are independent. In other word, knowledge of X is equivalent to knowledge of T as far as estimation of θ is concerned. Note that in probabilities are where all the uncertainties are captured, and hence "any estimate" when (conditional) probabilities are independent (eg conditional densities factorize).

Mahdi
źródło