Chciałbym zrozumieć zastosowanie symulacji Monte Carlo w chisq.test()
funkcji w R.
Mam zmienną jakościową, która ma 128 poziomów / klas. Moja próbka to 26 (nie mogłem próbkować więcej „osób”). Więc oczywiście będę mieć kilka poziomów z 0 „osobami”. Ale faktem jest, że mam bardzo małą liczbę klas reprezentowanych z 127 możliwych. Ponieważ słyszałem, że aby zastosować test chi-kwadrat, powinniśmy mieć co najmniej 5 osobników na każdym poziomie (nie do końca rozumiem powód tego), pomyślałem, że musiałem skorzystać z simulate.p.value
opcji użycia symulacji Monte Carlo, aby oszacować rozkład i obliczyć wartość p. Bez symulacji Monte Carlo R daje mi wartość p < 1e-16
. Dzięki symulacji Monte Carlo daje mi wartość p przy 4e-5
.
Próbowałem obliczyć wartość p za pomocą wektora 26 zer i 101 zer, a przy symulacji Monte-Carlo otrzymuję wartość p przy 1.
Czy można stwierdzić, że nawet jeśli moja próbka jest niewielka w porównaniu z liczbą możliwych klas, zaobserwowany rozkład jest taki, że jest bardzo mało prawdopodobne, aby wszystkie możliwe klasy istniały z takim samym prawdopodobieństwem (1/127) w rzeczywistej populacji ?
źródło
Odpowiedzi:
Poszukując, wydaje się, że celem symulacji Monte-Carlo jest wytworzenie rozkładu odniesienia, opartego na losowo generowanych próbkach, które będą miały taki sam rozmiar jak badana próbka, w celu obliczenia wartości p, gdy warunki testowe nie są spełnione.
Wyjaśnia to Nadzieja A. J Royal Stat Society Series B (1968), którą można znaleźć na JSTOR .
Oto odpowiedni cytat z dokumentu Hope:
źródło