Zrozumienie testu chi-kwadrat i rozkładu chi-kwadrat

13

Próbuję zrozumieć logikę testu chi-kwadrat.

Test chi-kwadrat to . jest następnie porównywany z rozkładem chi-kwadrat, aby znaleźć wartość p. w celu odrzucenia lub nie hipotezy zerowej. : obserwacje pochodzą z rozkładu, którego użyliśmy do stworzenia naszych oczekiwanych wartości. Na przykład moglibyśmy sprawdzić, czy prawdopodobieństwo uzyskania jest podane przez tak jak się spodziewamy. Przerzucamy więc 100 razy i znajdujemy i . Chcemy porównać nasze wyniki z oczekiwaniami ( ). Równie dobrze moglibyśmy zastosować rozkład dwumianowy, ale nie o to chodzi w pytaniu… Pytanie brzmi: χ2H0pnH1-nH100pχ2=(obsexp)2expχ2H0headpnH Heads1nH tails100p

Czy możesz wyjaśnić, dlaczego zgodnie z hipotezą zerową ma rozkład chi-kwadrat?(obsexp)2exp

Wszystko, co wiem o rozkładzie chi-kwadrat, to to, że rozkład chi-kwadrat stopnia jest sumą kwadratowego standardowego rozkładu normalnego.kkk

Remi.b
źródło
2
Nie robi tego: jest to przybliżenie. (Dużo) więcej na ten temat pojawia się w wątku na stronie stats.stackexchange.com/questions/16921/… .
whuber
To może okazać się interesujące Karl Pearson i test chi-kwadrat, (Placket, 1983) {pdf}
Avraham
Powiązane pytanie dotyczące tego, dlaczego rozkład chi-kwadrat jest wykorzystywany do sprawdzania poprawności
Silverfish,

Odpowiedzi:

12

Równie dobrze moglibyśmy zastosować rozkład dwumianowy, ale nie o to chodzi w pytaniu…

Niemniej jednak jest to nasz punkt wyjścia nawet do twojego rzeczywistego pytania. Omówię to nieco nieformalnie.

Rozważmy bardziej ogólnie przypadek dwumianowy:

YBin(n,p)

Załóżmy, że i są takie, że jest dobrze aproksymowane normą z tą samą średnią i wariancją (niektóre typowe wymagania są mniejsze niż nie jest małe, lub że nie jest mały).p Y min ( n p , n ( 1 - p ) )npYmin(np,n(1p))np(1p)

Wtedy będzie w przybliżeniu . Tutaj jest liczbą sukcesów.χ 2 1 Y(YE(Y))2/Var(Y)χ12Y

Mamy i .Var ( Y ) = n p ( 1 - p )E(Y)=npVar(Y)=np(1p)

(W przypadku testowania jest znane, a jest określone w . Nie dokonujemy żadnych oszacowań.)p H 0npH0

Więc będzie w przybliżeniu .χ 2 1(Ynp)2/np(1p)χ12

Zauważ, że . Zauważ też, że .1(Ynp)2=[(nY)n(1p)]21p+11p=1p(1p)

Stąd(Ynp)2np(1p)=(Ynp)2np+(Ynp)2n(1p)=(Ynp)2np+[(nY)n(1p)]2n(1p)=(OSES)2ES+(OFEF)2EF

Która jest tylko statystyką chi-kwadrat dla przypadku dwumianowego.

W takim przypadku statystyka chi-kwadrat powinna mieć rozkład kwadratu (w przybliżeniu) zmiennej losowej o normalnej normie.

Glen_b - Przywróć Monikę
źródło