Resztki Pearsona

16

Pytanie początkującego o resztki Pearsona w kontekście testu chi-kwadrat na dobroć dopasowania:

Oprócz statystyki testowej chisq.testfunkcja R zgłasza resztkową wartość Pearsona:

(obs - exp) / sqrt(exp)

Rozumiem, dlaczego przyglądanie się różnicy między wartościami obserwowanymi i oczekiwanymi nie jest tak pouczające, ponieważ mniejsza próbka spowoduje mniejszą różnicę. Chciałbym jednak dowiedzieć się więcej o działaniu mianownika: po co dzielić przez pierwiastek oczekiwanej wartości? Czy jest to „znormalizowana” pozostałość?

Iain Dillingham
źródło
6
Mianownik służy do uwzględnienia wariancji surowych reszt, co następnie czyni reszty Pearsona przybliżoną wariancją jednostkową (istnieją inne metody osiągnięcia tego). Należy pamiętać, że istnieje element stdresznormalizowanych pozostałości.
chl
@chl Dziękujemy za szybką odpowiedź. Nie rozumiem jednak pojęcia wariancji w tym kontekście. Czy znasz jakieś zasoby, w których mógłbym dowiedzieć się więcej? Zakładam zatem, że reszta Pearsona nie jest „znormalizowana”, biorąc pod uwagę, że chisq.testrównież oblicza stdresskładnik?
Iain Dillingham,
3
Ostateczne odniesienie do analizy danych kategorycznych to prawdopodobnie analiza danych kategorycznych autorstwa Alana Agresti. Jeśli nikt nie udzieli bardziej szczegółowej odpowiedzi, postaram się przekształcić moje komentarze w prawidłową odpowiedź.
chl
Dzięki za link, @chl. Mam dostęp do książki, więc spróbuję ją rozgryźć.
Iain Dillingham,

Odpowiedzi:

10

Standardowy model statystyczny leżący u podstaw analizy tabel kontyngencji zakłada, że ​​(bezwarunkowo od liczby całkowitej) liczby komórek są niezależnymi zmiennymi losowymi Poissona. Więc jeśli maszn×m

Xi,j ~ Pois(μi,j)

E(Xi,j)=V(Xi,j)=μi,j

STD(Xja,jot)Xja,jot-mi(Xja,jot)V.(Xja,jot)=Xja,jot-μja,jotμja,jot

Tak więc to, o co pytasz w formule, o którą pytasz, to znormalizowana liczba komórek, przy założeniu, że liczba komórek ma (bezwarunkowy) rozkład Poissona.

Z tego miejsca często testuje się niezależność zmiennych wierszy i kolumn w danych, w tym przypadku można użyć statystyki testowej, która sprawdza sumę kwadratów powyższych wartości (która jest równoważna normie do kwadratu) wektora znormalizowanych wartości). Test chi-kwadrat zapewnia wartość p dla tego rodzaju testu opartą na aproksymacji dużej próbki do rozkładu zerowego statystyki testu. Zwykle stosuje się go w przypadkach, gdy żadna z wartości sprzedaży nie jest zbyt mała.

Przywróć Monikę
źródło
0

W kontekście dobroci dopasowania możesz zapoznać się z tym http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm .

Jeśli chcesz wiedzieć, jak się tam dostał mianownik, będziesz musiał zobaczyć chi-kwadrat tutaj jako normalne przybliżenie dwumianu, na początek, który następnie można rozszerzyć na wielomian.

RyL
źródło