Patrzę na arkusz programu Excel, który twierdzi, że oblicza , ale nie rozpoznaję tego sposobu i zastanawiałem się, czy coś mi umknęło.
Oto dane, które analizuje:
+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
| 2000 | 42 | 32.5 |
| 2000 | 42 | 32.5 |
| 2000 | 25 | 32.5 |
| 2000 | 21 | 32.5 |
+------------------+----------+----------+
A oto sumy, które robi dla każdej grupy, aby obliczyć chi kwadrat:
P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B
Tak więc dla każdej grupy jest:
2.822793
2.822793
1.759359
4.136448
A łączna wartość chi-kwadrat jest: 11.54139
.
Jednak każdy przykład, jaki widziałem obliczania jest zupełnie inny od tego. Zrobiłbym dla każdej grupy:
chiSq = (Observed-Expected)^2 / Expected
I dlatego dla powyższego przykładu uzyskałbym całkowitą wartość chi kwadrat 11.3538
.
Moje pytanie brzmi - dlaczego w arkuszu programu Excel obliczają w ten sposób? Czy to uznane podejście?
AKTUALIZACJA
Moim powodem, dla którego chcę to wiedzieć, jest to, że próbuję powtórzyć te wyniki w języku R. Korzystam z funkcji chisq.test i nie wychodzi ona z tym samym numerem co arkusz Excela. Więc jeśli ktoś wie, jak zastosować to podejście w R, byłoby bardzo pomocne!
AKTUALIZACJA 2
Jeśli ktoś jest zainteresowany, oto jak obliczyłem to w R:
res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
źródło
x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Odpowiedzi:
To okazuje się dość proste.
Jest to wyraźnie dwumianowe próbkowanie. Są na to dwa sposoby.
Metoda 1, czyli z arkusza kalkulacyjnego, służy do leczenia zaobserwowanych zliczeńXi tak jak ∼Bin(Ni,pi) , które mogą być przybliżone jako N(μi=Ni⋅pi,σ2i=Ni⋅pi(1−pi)) . Takie jak,Zi=(Xi−μi)/σi są w przybliżeniu standardowe normalne, a Z są niezależne, więc (w przybliżeniu) ∑iZ2i∼χ2 .
(Jeśli p są oparte na obserwowanych liczbach, toZ nie są niezależne, ale wciąż ma kwadrat chi z jednym mniejszym stopniem swobody.)
Metoda 2: korzystanie z(O−E)2/E forma chi-kwadrat również działa, ale wymaga uwzględnienia nie tylko tych w kategorii, którą oznaczyłeś jako „Obserwowane”, ale także tych, które nie należą do tej kategorii:
GdzieE dla pierwszej kolumny są takie, jakie masz, a dla drugiej kolumny są Ni(1−pi)
... a następnie suma(O−E)2/E w obu kolumnach.
Te dwie formy są algebraicznie równoważne. Zauważ, że1/p+1/(1−p)=1/p(1−p) . Rozważ ith rząd kwadratu chi:
Co oznacza, że powinieneś otrzymać tę samą odpowiedź w obie strony, aż do błędu zaokrąglania.
Zobaczmy:
Chi-kwadrat = 11,353846 + 0,187548 = 11,54139
Która pasuje do ich odpowiedzi.
źródło