W jaki sposób statystyki chi-kwadrat Pearsona przybliżają rozkład chi-kwadrat

10

Jeśli więc podana jest chi-kwadratowa statystyka Pearsona dla tabeli , wówczas jej forma jest następująca:1×N

i=1n(OiEi)2Ei

W przybliżeniu , rozkład chi-kwadrat z n - 1 stopniami swobody, gdy wielkość próbki N powiększa się. χn12n1N

Nie rozumiem, jak działa to asymptotyczne przybliżenie. Czuję, że w mianownikach należy zastąpić s 2 iEi . Ponieważ dałoby toχ 2 n = n i = 1 Z 2 i , dlaZin(0,1). Ale oczywiście ma tonstopni swobody, a nien-1, więc wyraźnie dzieje się coś innego.si2niχn2=i=1nZi2Zin(0,1)nn1

Thot
źródło
Chociaż to nie odpowiada na twoje pytanie , może rzucić na to trochę światła.
whuber

Odpowiedzi:

11

Zmotywuję to intuicyjnie i wskażę, jak to się dzieje w specjalnym przypadku dwóch grup, zakładając, że z przyjemnością przyjmiesz normalne przybliżenie do dwumianu.

Mam nadzieję, że to wystarczy, abyś dobrze zorientował się, dlaczego działa tak, jak działa.

Mówisz o teście dobroci dopasowania chi-kwadrat. Powiedzmy, że istnieje grup (masz to jako n , ale jest powód, dla którego wolę nazywać to kknk ).

W modelu są stosowane w tej sytuacji, liczy , i = 1 , 2 , . . . , kwielomianoweOii=1,2,...,k .

Niech . Liczenia zależą od sumy N (z wyjątkiem niektórych dość rzadkich sytuacji); i dla każdej kategorii istnieje pewien wstępnie określony zestaw prawdopodobieństw, p i , i = 1 , 2 , , k , które sumują się do 1N=i=1kOiNpi,i=1,2,,k1 .

Podobnie jak w przypadku dwumianu istnieje asymptotyczne przybliżenie normalne dla wielomianów - w rzeczywistości, jeśli weźmie się pod uwagę tylko liczbę w danej komórce („w tej kategorii” lub nie), wówczas byłaby ona dwumianowa. Podobnie jak w przypadku dwumianu, wariancje zliczeń (a także ich kowariancje w wielomianu) są funkcjami i p ; nie oceniasz wariancji osobno.Np

Oznacza to, że jeżeli oczekiwane zliczenia są dostatecznie duże, wektor liczy w przybliżeniu normalnym do średniej . Ponieważ jednak liczby są zależne od N , rozkład jest zdegenerowany (istnieje w hiperpłaszczyźnie o wymiarze k - 1 , ponieważ określenie k - 1 zliczeń naprawia pozostałą). Macierz wariancji-kowariancji ma wpisy ukośne N p i ( 1 - p i ) oraz elementy poziome - N p i p jEi=NpiNk1k1Npi(1pi)Npipj, i ma rangę powodu degeneracji.k1

W rezultacie dla pojedynczej komórki , a można napisać z i = O i - E iVar(Oi)=Npi(1pi) . Jednak warunki są zależne (ujemnie skorelowane), więc jeśli zsumujesz kwadraty tychzi,to nie będzie miałrozkładuχ2k(tak jak gdyby były to niezależne zmienne standaryzowane). Zamiast tego moglibyśmy potencjalnie skonstruować zestawk-1zmiennych niezależnych od pierwotnegok,które są niezależne i nadal w przybliżeniu normalne (asymptotycznie normalne). Jeśli zsumujemyich(znormalizowane) kwadraty, otrzymamyχ2k-1zi=OiEiEi(1pi)ziχk2k1kχk12. Istnieją sposoby skonstruowania takiego zestawu zmiennych sposób jawny, ale na szczęście istnieje bardzo zgrabny skrót, który pozwala uniknąć znacznego wysiłku i daje taki sam wynik (tę samą wartość statystyki), jak gdybyśmy mieli zadał sobie trud.k1

Rozważ, dla uproszczenia, dobroć dopasowania w dwóch kategoriach (która jest teraz dwumianowa). Prawdopodobieństwo przebywania w pierwszej komórce wynosi , aw drugiej komórce jest p 2 = 1 - p . Istnieje X = O 1 obserwacji w pierwszej komórki, a N - X = O 2 w drugiej komórce.p1=pp2=1pX=O1NX=O2

XN(Np,Np(1p))z=XNpNp(1p)z2=(XNp)2Np(1p)χ12 (asymptotically χ12).

Notice that

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)].

But

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p).

So i=12(OiEi)2Ei=(XNp)2Np(1p) which is the z2 we started with - which asymptotically will be a χ12 random variable. The dependence between the two cells is such that by diving by Ei instead of Ei(1pi) we exactly compensate for the dependence between the two, and get the original square-of-an-approximately-normal random variable.

The same kind of sum-dependence is taken care of by the same approach when there are more than two categories -- by summing the (OiEi)2Ei instead of (OiEi)2Ei(1pi) over all k terms, you exactly compensate for the effect of the dependence, and obtain a sum equivalent to a sum of k1 independent normals.

There are a variety of ways to show the statistic has a distribution that asymptotically χk12 for larger k (it's covered in some undergraduate statistics courses, and can be found in a number of undergraduate-level texts), but I don't want to lead you too far beyond the level your question suggests. Indeed derivations are easy to find in notes on the internet, for example there are two different derivations in the space of about two pages here

Glen_b -Reinstate Monica
źródło
Thanks, this makes sense. Is this something of a mathematical coincidence/accident that it works out so nicely to just be division by the expected value? or is there an intuitive statistical explanation why this should be the case.
Thoth
There are several explanations that may or may not be intuitive, depending on things that vary from person to person. For example, if the observed counts were originally independent Poisson variables, then the variance for the z would actually lead you to divide by Ei (& the Poisson is also asymptotically normal). If you then condition on the total (as above), you get multinomial. Whether you condition on the total or not (i.e. whether you treat it as Poisson or multinomial), the ML estimator is the same, and so the variance of that estimator is the same -- (ctd)
Glen_b -Reinstate Monica
(ctd) ... As a result, you should divide by Ei and the variance should come out exactly right. [You still have only k1 df though.]
Glen_b -Reinstate Monica
0

The one-page manuscript http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf referred to by user @Glen_b ultimately shows that the statistic can be rewritten as a Hotelling T2 with covariance rank = k1 (see eq. 9.6). We may then invoke a classical result of S.J. Sepanski (1994) to obtain its asymptotic distribution as a chi-squared with k1 degrees of freedom.

dohmatob
źródło