Po ostatnim głosowaniu w dół próbowałem sprawdzić swoje zrozumienie testu Pearson Chi Squared. Zwykle używam statystyki chi kwadrat (lub zredukowanej statystyki chi kwadrat) do dopasowania lub sprawdzenia wynikowego dopasowania. W tym przypadku wariancja nie jest zwykle oczekiwaną liczbą zliczeń w tabeli lub histogramie, ale pewną wariancją określoną eksperymentalnie. Tak czy inaczej, zawsze miałem wrażenie, że test nadal wykorzystuje asymptotyczną normalność wielomianowego pliku PDF (tj. Moja statystyka testu to
i jest asymptotycznie wielomianowy, gdzie oznacza macierz kowariancji). Dlatego ma rozkład chi-kwadrat o dużej więc użycie oczekiwanej liczby zliczeń, ponieważ mianownik w statystyce staje się ważny dla dużej . Możliwe, że dotyczy to tylko histogramów, od lat nie analizowałem małej tabeli danych.
Czy brakuje mi bardziej subtelnego argumentu, którego mi brakuje? Byłbym zainteresowany referencją, a jeszcze lepiej krótkim wyjaśnieniem. (Chociaż jest to możliwe, właśnie głosowałem za pominięciem słowa asymptotycznego, co, jak przyznam, jest raczej ważne).
źródło
Odpowiedzi:
Test chi-kwadrat ma na celu analizę danych kategorycznych. Oznacza to, że dane zostały policzone i podzielone na kategorie. Nie będzie działać z danymi parametrycznymi lub ciągłymi. Więc nie działa ustalenie dopasowania wynikowego w każdym przypadku.
Źródło: http://www.ling.upenn.edu/~clight/chisquared.htm
źródło