Patrzyłem na tę stronę dotyczącą implementacji Monte Carlo testu Lilleforsa. Nie rozumiem tego zdania:
W obliczeniach występuje błąd przypadkowy z symulacji. Jednak ze względu na sztuczkę polegającą na dodaniu 1 do licznika i mianownika przy obliczaniu wartości P można go stosować prosto, bez względu na przypadkowość.
Co rozumieją przez sztuczkę polegającą na dodaniu 1 do licznika i mianownika?
Odpowiedni fragment kodu znajduje się tutaj:
n <- length(x)
nsim <- 4999
d.star <- double(nsim)
for (i in 1:nsim) {
x.star <- rnorm(n)
d.star[i] <- fred(x.star)
}
hist(d.star)
abline(v = d.hat, lty = 2)
## simulation-derived P-value
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)
monte-carlo
lilliefors
Aksakal
źródło
źródło
Odpowiedzi:
Wyjaśnienie na odnośnej stronie to
Aby to zrozumieć, musimy przyjrzeć się kodowi, którego kluczowe linie (znacznie skrócone)
Istotnym problemem jest to, że kod nie pasuje do cytatu. Jak możemy je pogodzić? Jedna próba rozpoczyna się od ostatniej połowy oferty. Możemy interpretować procedurę jako obejmującą następujące kroki:
Zbierać niezależnie identycznie rozmieszczone danych według pewnego prawa prawdopodobieństwa . Zastosuj procedurę testową (zaimplementowaną w kodzie as ), aby uzyskać liczbę .X1,X2,…,Xn G t T0=t(X1,…,Xn)
fred
Generowania przez komputer porównywalnych zbiorów danych, z których każdy o rozmiarze , zgodnie z hipotezą zerową z prawem prawdopodobieństwo . Zastosuj do każdego takiego zestawu danych, aby uzyskać liczb .N=nsim n F t N T1,T2,…,TN
Oblicz
(„ ” to funkcja wskaźnika realizowana przez porównanie wartości w wektorze w kodzie). Prawa strona jest rozumiana jako losowa z uwagi na równoczesną losowość (rzeczywista statystyka testu) i losowość ( symulowane statystyki testowe).I T0 Ti
d.star > d.hat
Powiedzieć, że dane są zgodne z hipotezą zerową jest twierdzić, że . Wybierz rozmiar testowy , . Pomnożenie obu stron przez i odjęcie pokazuje, że szansa, że dla dowolnej liczby jest szansą, że nie więcej niż z przekroczy . Mówi to jedynie, że znajduje się w górnym posortowanego zestawu wszystkich statystyk testowych . Ponieważ (przez budowę)F=G α 0<α<1 N+1 1 P≤α α (N+1)α−1 Ti T0 T0 (N+1)α N+1 T0 jest niezależny od wszystkich , gdy jest rozkładem ciągłym, ta szansa będzie ułamkiem całości reprezentowanym przez część całkowitą ; to znaczy, i będzie dokładnie taki sam, pod warunkiem jest liczbą całkowitą ; to znaczy, gdy .Ti F ⌊(N+1)α⌋
Z pewnością jest to jedna z rzeczy, które chcemy spełnić w odniesieniu do każdej wielkości, która zasługuje na miano „wartości p”: powinna mieć jednolity rozkład na . Pod warunkiem, że jest dość duży, więc każdy jest zbliżony do pewnej części formy , to będzie zbliżone do munduru dystrybucja. (Aby dowiedzieć się o dodatkowych warunkach wymaganych dla wartości p, przeczytaj okno dialogowe, które zamieściłem na temat wartości p. )[0,1] N+1 α k/(N+1)=k/(nsim+1) P
Oczywiście cytat powinien używać „ ” zamiast „ ”, gdziekolwiek się pojawi.nsim+1 nsim
źródło
Uważam, że tutaj 1 dodaje się do obu, ponieważ obserwowana statystyka jest uwzględniona w rozkładzie odniesienia; w takim przypadku wynika to z „przynajmniej tak dużej” części definicji wartości p.
Nie wiem na pewno, ponieważ tekst wydaje się mówić coś innego, ale właśnie dlatego to zrobiłbym.
źródło