Jeśli więc podana jest chi-kwadratowa statystyka Pearsona dla tabeli , wówczas jej forma jest następująca:
W przybliżeniu , rozkład chi-kwadrat z n - 1 stopniami swobody, gdy wielkość próbki N powiększa się.
Nie rozumiem, jak działa to asymptotyczne przybliżenie. Czuję, że w mianownikach należy zastąpić s 2 i . Ponieważ dałoby toχ 2 n =∑ n i = 1 Z 2 i , dlaZi∼n(0,1). Ale oczywiście ma tonstopni swobody, a nien-1, więc wyraźnie dzieje się coś innego.
chi-squared
asymptotics
Thot
źródło
źródło
Odpowiedzi:
Zmotywuję to intuicyjnie i wskażę, jak to się dzieje w specjalnym przypadku dwóch grup, zakładając, że z przyjemnością przyjmiesz normalne przybliżenie do dwumianu.
Mam nadzieję, że to wystarczy, abyś dobrze zorientował się, dlaczego działa tak, jak działa.
Mówisz o teście dobroci dopasowania chi-kwadrat. Powiedzmy, że istnieje grup (masz to jako n , ale jest powód, dla którego wolę nazywać to kk n k ).
W modelu są stosowane w tej sytuacji, liczy , i = 1 , 2 , . . . , k są wielomianoweOi i=1,2,...,k .
Niech . Liczenia zależą od sumy N (z wyjątkiem niektórych dość rzadkich sytuacji); i dla każdej kategorii istnieje pewien wstępnie określony zestaw prawdopodobieństw, p i , i = 1 , 2 , … , k , które sumują się do 1N=∑ki=1Oi N pi,i=1,2,…,k 1 .
Podobnie jak w przypadku dwumianu istnieje asymptotyczne przybliżenie normalne dla wielomianów - w rzeczywistości, jeśli weźmie się pod uwagę tylko liczbę w danej komórce („w tej kategorii” lub nie), wówczas byłaby ona dwumianowa. Podobnie jak w przypadku dwumianu, wariancje zliczeń (a także ich kowariancje w wielomianu) są funkcjami i p ; nie oceniasz wariancji osobno.N p
Oznacza to, że jeżeli oczekiwane zliczenia są dostatecznie duże, wektor liczy w przybliżeniu normalnym do średniej . Ponieważ jednak liczby są zależne od N , rozkład jest zdegenerowany (istnieje w hiperpłaszczyźnie o wymiarze k - 1 , ponieważ określenie k - 1 zliczeń naprawia pozostałą). Macierz wariancji-kowariancji ma wpisy ukośne N p i ( 1 - p i ) oraz elementy poziome - N p i p jEi=Npi N k−1 k−1 Npi(1−pi) −Npipj , i ma rangę powodu degeneracji.k−1
W rezultacie dla pojedynczej komórki , a można napisać z i = O i - E iVar(Oi)=Npi(1−pi) . Jednak warunki są zależne (ujemnie skorelowane), więc jeśli zsumujesz kwadraty tychzi,to nie będzie miałrozkładuχ2k(tak jak gdyby były to niezależne zmienne standaryzowane). Zamiast tego moglibyśmy potencjalnie skonstruować zestawk-1zmiennych niezależnych od pierwotnegok,które są niezależne i nadal w przybliżeniu normalne (asymptotycznie normalne). Jeśli zsumujemyich(znormalizowane) kwadraty, otrzymamyχ2k-1zi=Oi−EiEi(1−pi)√ zi χ2k k−1 k χ2k−1 . Istnieją sposoby skonstruowania takiego zestawu zmiennych sposób jawny, ale na szczęście istnieje bardzo zgrabny skrót, który pozwala uniknąć znacznego wysiłku i daje taki sam wynik (tę samą wartość statystyki), jak gdybyśmy mieli zadał sobie trud.k−1
Rozważ, dla uproszczenia, dobroć dopasowania w dwóch kategoriach (która jest teraz dwumianowa). Prawdopodobieństwo przebywania w pierwszej komórce wynosi , aw drugiej komórce jest p 2 = 1 - p . Istnieje X = O 1 obserwacji w pierwszej komórki, a N - X = O 2 w drugiej komórce.p1=p p2=1−p X=O1 N−X=O2
Notice that
But
So∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p) which is the z2 we started with - which asymptotically will be a χ21 random variable. The dependence between the two cells is such that by diving by Ei instead of Ei(1−pi) we exactly compensate for the dependence between the two, and get the original square-of-an-approximately-normal random variable.
The same kind of sum-dependence is taken care of by the same approach when there are more than two categories -- by summing the(Oi−Ei)2Ei instead of (Oi−Ei)2Ei(1−pi) over all k terms, you exactly compensate for the effect of the dependence, and obtain a sum equivalent to a sum of k−1 independent normals.
There are a variety of ways to show the statistic has a distribution that asymptoticallyχ2k−1 for larger k (it's covered in some undergraduate statistics courses, and can be found in a number of undergraduate-level texts), but I don't want to lead you too far beyond the level your question suggests. Indeed derivations are easy to find in notes on the internet, for example there are two different derivations in the space of about two pages here
źródło
The one-page manuscript http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf referred to by user @Glen_b ultimately shows that the statistic can be rewritten as a HotellingT2 with covariance rank = k−1 (see eq. 9.6). We may then invoke a classical result of S.J. Sepanski (1994) to obtain its asymptotic distribution as a chi-squared with k−1 degrees of freedom.
źródło