Próbuję zrozumieć logikę testu chi-kwadrat.
Test chi-kwadrat to . jest następnie porównywany z rozkładem chi-kwadrat, aby znaleźć wartość p. w celu odrzucenia lub nie hipotezy zerowej. : obserwacje pochodzą z rozkładu, którego użyliśmy do stworzenia naszych oczekiwanych wartości. Na przykład moglibyśmy sprawdzić, czy prawdopodobieństwo uzyskania jest podane przez tak jak się spodziewamy. Przerzucamy więc 100 razy i znajdujemy i . Chcemy porównać nasze wyniki z oczekiwaniami ( ). Równie dobrze moglibyśmy zastosować rozkład dwumianowy, ale nie o to chodzi w pytaniu… Pytanie brzmi: χ2H0pnH1-nH100⋅phead
Heads
tails
Czy możesz wyjaśnić, dlaczego zgodnie z hipotezą zerową ma rozkład chi-kwadrat?
Wszystko, co wiem o rozkładzie chi-kwadrat, to to, że rozkład chi-kwadrat stopnia jest sumą kwadratowego standardowego rozkładu normalnego.k
Odpowiedzi:
Niemniej jednak jest to nasz punkt wyjścia nawet do twojego rzeczywistego pytania. Omówię to nieco nieformalnie.
Rozważmy bardziej ogólnie przypadek dwumianowy:
Załóżmy, że i są takie, że jest dobrze aproksymowane normą z tą samą średnią i wariancją (niektóre typowe wymagania są mniejsze niż nie jest małe, lub że nie jest mały).p Y min ( n p , n ( 1 - p ) )n p Y min ( n p , n ( 1 - p ) ) n p ( 1 - p )
Wtedy będzie w przybliżeniu . Tutaj jest liczbą sukcesów.∼ χ 2 1 Y( Y- E( Y) )2)/ Var(Y) ∼ χ2)1 Y
Mamy i .Var ( Y ) = n p ( 1 - p )mi( Y) = n p Var(Y)=np(1−p)
(W przypadku testowania jest znane, a jest określone w . Nie dokonujemy żadnych oszacowań.)p H 0n p H0
Więc będzie w przybliżeniu .∼ χ 2 1(Y−np)2/np(1−p) ∼χ21
Zauważ, że . Zauważ też, że .1(Y−np)2=[(n−Y)−n(1−p)]2 1p+11−p=1p(1−p)
Stąd(Y−np)2np(1−p)=(Y−np)2np+(Y−np)2n(1−p)=(Y−np)2np+[(n−Y)−n(1−p)]2n(1−p)=(OS−ES)2ES+(OF−EF)2EF
Która jest tylko statystyką chi-kwadrat dla przypadku dwumianowego.
W takim przypadku statystyka chi-kwadrat powinna mieć rozkład kwadratu (w przybliżeniu) zmiennej losowej o normalnej normie.
źródło