Pomijając oczywistą kwestię niskiej mocy chi-kwadrat w tego rodzaju okolicznościach, wyobraź sobie, że wykonujesz test dobroci chi-kwadrat dla pewnej gęstości z nieokreślonymi parametrami, poprzez binowanie danych.
Dla konkretności, powiedzmy rozkład wykładniczy z nieznaną średnią i wielkość próby powiedzmy 100.
Aby uzyskać rozsądną liczbę spodziewanych obserwacji na przedział, należałoby wziąć pod uwagę dane (np. Jeśli zdecydujemy się umieścić 6 przedziałów poniżej średniej i 4 powyżej, to nadal używamy granic przedziału na podstawie danych) .
Ale to wykorzystanie pojemników opartych na oglądaniu danych prawdopodobnie wpłynęłoby na rozkład statystyki testowej poniżej wartości zerowej.
Widziałem wiele dyskusji na temat tego, że - jeśli parametry są szacowane na podstawie maksymalnego prawdopodobieństwa na podstawie skumulowanych danych - tracisz 1 df na szacowany parametr (problem pochodzi z czasów Fishera i Karla Pearsona) - ale nie pamiętam czytając cokolwiek na temat znajdowania samych granic bin na podstawie danych. (Jeśli oszacujesz je na podstawie niepowiązanych danych, wówczas z binami rozkład statystyki testowej leży gdzieś pomiędzy a a .)
Czy ten oparty na danych wybór pojemników ma istotny wpływ na poziom istotności lub moc? Czy są jakieś podejścia, które mają większe znaczenie niż inne? Jeśli jest duży efekt, czy jest to coś, co odchodzi w dużych próbkach?
Jeśli ma to znaczący wpływ, wydaje się, że zastosowanie testu chi-kwadrat, gdy parametry są nieznane, jest prawie bezużyteczne w wielu przypadkach (pomimo tego, że wciąż zaleca się sporo tekstów), chyba że masz dobry -priori oszacowanie parametru.
Przydatna byłaby dyskusja na temat zagadnień lub wskazówek do odniesień (najlepiej z podaniem ich wniosków).
Edytuj, prawie na bok do głównego pytania:
Przyszło mi do głowy, że istnieją potencjalne rozwiązania dla konkretnego przypadku wykładniczego * (i mundur się nad tym zastanawia), ale nadal interesuje mnie bardziej ogólny problem wpływu granic granicznych.
* Na przykład dla wykładniczej można użyć najmniejszej obserwacji (powiedzmy, że jest równa ), aby uzyskać bardzo przybliżone wyobrażenie o tym, gdzie umieścić pojemniki (ponieważ najmniejsza obserwacja jest wykładnicza ze średnią ), i następnie przetestuj pozostałe różnice ( ) pod kątem wykładniczości. Oczywiście może to dać bardzo słabe oszacowanie , a zatem złe wybory bin, chociaż przypuszczam, że można użyć argumentu rekurencyjnie, aby wziąć najniższe dwie lub trzy obserwacje, z których można wybrać rozsądne pojemniki, a następnie przetestować różnice pozostałe obserwacje powyżej największej z tych statystyk dotyczących najmniejszego rzędu wykładniczej)
źródło
Odpowiedzi:
Podstawowe wyniki testów dobroci dopasowania chi-kwadrat można rozumieć hierarchicznie .
Poziom 0 . Klasyczna statystyka testu chi-kwadrat Pearsona do testowania próbki wielomianowej względem stałego wektora prawdopodobieństwa wynosi X 2 ( p ) = k ∑ i = 1 ( X ( n ) i - n p i ) 2p
gdzie X ( n ) i oznacza liczbę wyników w i- tej komórce z próbki o rozmiarze n . Można to owocnie postrzegać jako kwadratową normę wektora Y n = ( Y ( n ) 1 , … ,
Przykładami są statystyki Rao – Robsona – Nikulina oraz statystyki Dzhaparidze – Nikulina .
Bibliografia
A W. van der Vaart (1998), Asymptotic Statistics , Cambridge University Press. Rozdział 17 : Testy chi-kwadrat .
FC Drost (1989), Uogólnione testy dobroci dopasowania chi-kwadrat dla modeli w skali lokalizacji, gdy liczba klas dąży do nieskończoności , Ann. Stat , vol. 17, nr 3, 1285–1300.
MS Nikulin, MS (1973), test chi-kwadrat dla ciągłego rozkładu z parametrami przesunięcia i skali , teoria prawdopodobieństwa i jej zastosowanie , vol. 19, nr 3, 559–568.
KO Dzaparidze i MS Nikulin (1973), O modyfikacji standardowych statystyk Pearsona , Teorii prawdopodobieństwa i jej zastosowaniu , vol. 19, nr 4, 851–853.
KC Rao i DS Robson (1974), Statystyka chi-kwadrat dla dobroci testów dopasowania w rodzinie wykładniczej , Comm. Statystyk. , tom 3., nr. 12, 1139–1153.
N. Balakrishnan, V. Voinov i MS Nikulin (2013), Chi-Squared Goodness of Fit Tests With Applications , Academic Press.
źródło
Poniżej znalazłem przynajmniej częściowe odpowiedzi na moje pytanie. (Nadal chciałbym komuś dać ten bonus, więc wszelkie dalsze informacje są mile widziane.)
Bibliografia
Moore DS (1971), A Chi-Square Statistics with Random Cell Boundaries , Ann. Matematyka Stat. , Tom 42, nr 1, 147–156.
źródło