Dlaczego kwadrat chi używa się przy tworzeniu przedziału ufności dla wariancji?

15

To bardzo podstawowe pytanie. Dlaczego używamy rozkładu chi-kwadrat? Jakie jest znaczenie tej dystrybucji? Dlaczego ten rozkład służy do tworzenia przedziału ufności dla wariancji?

Każde miejsce, w którym szukam wyjaśnień, po prostu przedstawia ten fakt, wyjaśniając, kiedy używać chi, ale nie wyjaśniając, dlaczego używać chi i dlaczego wygląda tak, jak to działa.

Ogromne podziękowania dla każdego, kto może skierować mnie w dobrym kierunku i to jest - naprawdę rozumiem, dlaczego używam chi, kiedy tworzę przedział ufności dla wariancji.

nafrtiti
źródło
4
Używasz go, ponieważ - gdy dane są normalne - Q=(n1)s2σ2χn12 . (To sprawia, żeQjest kluczową ilością)
Glen_b
2
Zobacz także stats.stackexchange.com/questions/15711/… i jego linki.
Nick Cox,
1
Dla tych, którzy są zainteresowani zastosowaniem lub dalszym badaniem χ2 , warto zwrócić uwagę na różnicę między rozkładem χ2 („chi-kwadrat”) a rozkładem χ („chi”) (jest to pierwiastek kwadratowy z χ2 , co nie dziwi).
whuber

Odpowiedzi:

23

Szybka odpowiedź

Powodem jest to, że zakładając, że dane to iid i XjaN.(μ,σ2)) , i definiujemy przy tworzeniu przedziałów ufności, rozkład próbkowania związany z wariancją próbki (S2, pamiętaj, zmienna losowa!) Jest rozkładem chi-kwadrat (S2(N-1)/σ2χ2n-1), podobnie jak rozkład próbkowania związany ze średnią próbki jest standardowym rozkładem normalnym ((ˉX-μ)

X¯=N.XjaN.S.2)=N.(X¯-Xja)2)N.-1
S.2)S.2)(N.-1)/σ2)χn-12)), gdy znasz wariancję, oraz z t-studentem, gdy nie znasz (( ˉ X -μ)(X¯-μ)n/σZ(0,1) ).(X¯μ)n/STn1

Długa odpowiedź

Przede wszystkim udowodnimy, że ma rozkład chi-kwadrat z N - 1 stopniami swobody. Następnie zobaczymy, jak ten dowód jest użyteczny przy ustalaniu przedziałów ufności dla wariancji i jak wygląda rozkład chi-kwadrat (i dlaczego jest tak użyteczny!). Zaczynajmy.S2(N1)/σ2N1

Dowód

W tym celu być może musisz przyzwyczaić się do rozkładu chi-kwadrat w tym artykule w Wikipedii . Ten rozkład ma tylko jeden parametr: stopnie swobody, , i zdarza się, że ma funkcję generowania momentu (MGF) podaną przez: m χ 2 ν ( t ) = ( 1 - 2 t ) - ν / 2 . Jeśli możemy wykazać, że rozkład S 2 ( N - 1 ) / σ 2 ma funkcję generującą moment taki jak ten, ale z ν =ν

mχν2(t)=(12t)ν/2.
S2(N1)/σ2 , wykazaliśmy, że S 2 ( N - 1 ) / σ 2 ma rozkład chi-kwadrat z N - 1 stopniami swobody. Aby to pokazać, zwróć uwagę na dwa fakty:ν=N1S2(N1)/σ2N1
  1. Jeśli zdefiniujemy, gdzieZiN(0,1), tj. standardowe normalne zmienne losowe, funkcja generowania momentuYjest dana przez m Y (t)

    Y=(XiX¯)2σ2=Zi2,
    ZiN(0,1)Y MGF dlaZ2jest podane przez m Z 2 ( t )
    mY(t)=E[etY]=E[etZ12]×E[etZ22]×...E[etZN2]=mZi2(t)×mZ22(t)×...mZN2(t).
    Z2 gdzie nie stosuje się PDF rozkładu normalnego,F(oo)=e- oo 2 / 2/
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    , a stąd mY(t)=(1-2, T) - N / 2 , któryoznacza, żeYnastępuje rozkład chi-kwadrat zNstopni swobody.f(z)=ez2/2/2π
    mY(t)=(12t)N/2,
    YN
  2. Y1Y2ν1ν2W=Y1+Y2ν1+ν2W

N1

(N1)S2=n(X¯μ)+(Xiμ)2,
σ2
(N1)S2σ2+(X¯μ)2σ2/N=(Xiμ)2σ2.
Note that the second term in the left-side of this sum distributes as a chi-square distribution with 1 degree of freedom, and the right-hand side sum distributes as a chi-square with N degrees of freedom. Therefore, S2(N1)/σ2 distributes as a chi-square with N1 degrees of freedom.

Calculating the Confidence Interval for the variance.

When looking for a confidence interval for the variance, you want to know the limits L1 and L2 in

P(L1σ2L2)=1α.
Let's play with the inequality inside the parenthesis. First, divide by S2(N1),
L1S2(N1)σ2S2(N1)L2S2(N1).
And then remember two things: (1) the statistic S2(N1)/σ2 has a chi-squared distribution with N1 degrees of freedom and (2) the variances is always greather than zero, which implies that you can invert the inequalities, because
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
hence, the probability we are looking for is:
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
Note that S2(N1)/σ2χ2(N1). We want then,
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
(we integrate up to N1 because the expected value of a chi-squared random variable with N1 degrees of freedom is N1) or, equivalently,
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
Calling χα/22=S2(N1)L2 and χ1α/22=S2(N1)L1, where the values χα/22 and χ1α/22 can be found in chi-square tables (in computers mainly!) and solving for L1 and L2,
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
Hence, your confidence interval for the variance is
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).
Néstor
źródło
1
Simply because S2 does not follow a centered chi-square distribution, while S2(N1)/σ2 does and, therefore, its easier to work with. Are you asking for a derivation for that? (i.e., you want someone to show you that S2(N1)/σ2 follows a chi-square distribution with N1 degrees of freedom?)
Néstor
4
Przydałoby się zmodyfikować tę odpowiedź, aby uwzględnić bardzo silne, ale nieokreślone założenie, że wariancja próbki ma rozkład chi-kwadrat, gdy podstawowe dane są niezależne i zgodne z rozkładem normalnym . W przeciwieństwie do teorii rozkładu średniej próbki, gdzie w praktyce jej rozkład próbkowania będzie w przybliżeniu Normalny do rozsądnej dokładności w wielu sytuacjach, to samo zachowanie asymptotyczne zwykle nie występuje w przypadku wariancji próbki (dopóki rozmiary próbki nie staną się wyjątkowo duże).
whuber
1
Oops. So, so true! This actually came from a problem solution that I handed out to some students, where I state on the question all these assumptions. I edited the answer now.
Néstor
1
@user34756 The reason we don't use the distribution of S2 directly is that its distribution depends on the value of a parameter. You may find it useful to investigate the use of pivotal quantities in constructing confidence intervals.
Glen_b -Reinstate Monica
1
Isn't f(z)=ez2/2 instead of f(z)=ez2 ?
Benoît Legat