Przedział ufności dla chi-kwadrat

10

Próbuję znaleźć rozwiązanie, aby porównać dwa testy „dobroci dopasowania chi-kwadrat”. Dokładniej, chcę porównać wyniki z dwóch niezależnych eksperymentów. W tych eksperymentach autorzy wykorzystali chi-kwadrat dobroci dopasowania, aby porównać losowe zgadywanie (częstotliwości oczekiwane) z częstotliwościami obserwowanymi. Dwa eksperymenty otrzymały taką samą liczbę uczestników, a procedury eksperymentalne są identyczne, zmieniono tylko bodźce. Wyniki dwóch eksperymentów wykazały znaczący chi-kwadrat (exp. 1: X² (18) = 45; p <.0005 i exp. 2: X² (18) = 79; p <.0001).

Teraz chcę przetestować, czy istnieje różnica między tymi dwoma wynikami. Myślę, że rozwiązaniem może być zastosowanie przedziałów ufności, ale nie wiem, jak obliczyć te przedziały ufności tylko z tymi wynikami. A może test do porównania wielkości efektu (w Cohena)?

Czy ktoś ma rozwiązanie?

Wielkie dzięki!

FD

Florian
źródło
1
Cześć Florian. Dlaczego nie zastosować testu permutacji dla różnicy między kwadratami chi?
Tal Galili
Cześć i dziękuję za odpowiedź! Po prostu dlatego, że tak naprawdę nie znam testów permutacji. Czy można przeprowadzić permutację tylko z dwiema wartościami chi-kwadrat (nie mam surowych danych, tylko wyniki)? Jeszcze raz dziękuję :)
Florian

Odpowiedzi:

8

Bardzo ograniczone informacje, które posiadasz, są z pewnością poważnym ograniczeniem! Jednak rzeczy nie są całkowicie beznadziejne.

Przy tych samych założeniach, które prowadzą do asymptotycznego rozkładu dla statystyki testowej testu dobroci dopasowania o tej samej nazwie, statystyka testowa według alternatywnej hipotezy ma asymptotycznie niecentralny rozkład χ 2 . Jeśli założymy, że dwa bodźce są a) znaczące i b) mają ten sam efekt, powiązane statystyki testowe będą miały taki sam asymptotyczny niecentralny rozkład χ 2 . Możemy to wykorzystać do skonstruowania testu - zasadniczo poprzez oszacowanie parametrów noncentrality X i sprawdzając, czy statystyki testowe są daleko w ogonach w noncentral × 2 ( 18 , λ )χ2)χ2)χ2)λχ2)(18,λ^)dystrybucja. (Nie oznacza to jednak, że ten test będzie miał dużą moc.)

Możemy oszacować parametr niecentralności, biorąc pod uwagę dwie statystyki testowe, biorąc ich średnią i odejmując stopnie swobody (metoda estymatora momentów), dając oszacowanie 44, lub przez maksymalne prawdopodobieństwo:

x <- c(45, 79)
n <- 18

ll <- function(ncp, n, x) sum(dchisq(x, n, ncp, log=TRUE))
foo <- optimize(ll, c(30,60), n=n, x=x, maximum=TRUE)
> foo$maximum
[1] 43.67619

Dobra zgodność między naszymi dwoma szacunkami, nic dziwnego, biorąc pod uwagę dwa punkty danych i 18 stopni swobody. Teraz obliczyć wartość p:

> pchisq(x, n, foo$maximum)
[1] 0.1190264 0.8798421

Zatem nasza wartość p wynosi 0,12, co nie wystarcza do odrzucenia hipotezy zerowej, że oba bodźce są takie same.

λχ2)(λ-δ,λ+δ)δ=1,2),,15δ i zobacz, jak często nasz test odrzuca, powiedzmy, na poziomie ufności 90% i 95%.

nreject05 <- nreject10 <- rep(0,16)
delta <- 0:15
lambda <- foo$maximum
for (d in delta)
{
  for (i in 1:10000)
  {
    x <- rchisq(2, n, ncp=c(lambda+d,lambda-d))
    lhat <- optimize(ll, c(5,95), n=n, x=x, maximum=TRUE)$maximum
    pval <- pchisq(min(x), n, lhat)
    nreject05[d+1] <- nreject05[d+1] + (pval < 0.05)
    nreject10[d+1] <- nreject10[d+1] + (pval < 0.10)
  }
}
preject05 <- nreject05 / 10000
preject10 <- nreject10 / 10000

plot(preject05~delta, type='l', lty=1, lwd=2,
     ylim = c(0, 0.4),
     xlab = "1/2 difference between NCPs",
     ylab = "Simulated rejection rates",
     main = "")
lines(preject10~delta, type='l', lty=2, lwd=2)
legend("topleft",legend=c(expression(paste(alpha, " = 0.05")),
                          expression(paste(alpha, " = 0.10"))),
       lty=c(1,2), lwd=2)

co daje:

wprowadź opis zdjęcia tutaj

Patrząc na prawdziwe punkty hipotezy zerowej (wartość na osi x = 0), widzimy, że test jest konserwatywny, ponieważ nie wydaje się odrzucać tak często, jak wskazuje poziom, ale nie w przeważającej mierze. Tak jak się spodziewaliśmy, nie ma dużej mocy, ale jest lepszy niż nic. Zastanawiam się, czy istnieją lepsze testy, biorąc pod uwagę bardzo ograniczoną ilość dostępnych informacji.

łucznik
źródło
Jestem początkującym w tym temacie, czy mogę prosić o uruchomienie skryptu (jeśli był to skrypt) z odpowiedzi jbowman. W moim przypadku spróbuj uzyskać OR z 90% CI. Jestem naprawdę wdzięczny, jeśli ktoś z was może mi to wytłumaczyć i używam PASW17
Cześć Ash6. W rzeczywistości jest to skrypt dla oprogramowania R (więcej informacji: r-project.org ), a nie składnia dla PASW17. Więc ten skrypt można uruchomić bezpośrednio w konsoli R. Ten skrypt nie oblicza przedziałów ufności, ale podaje wartość p (tutaj dokładnie> pchisq (x, n, foo $ maximum ==> [1] wartość p = 0,1190264) odpowiadającą testowi różnicy między 2 eksperymentami (tutaj pomiędzy dwoma bodźcami, w przypadku hipotezy alternatywnej), a tutaj nie możemy odrzucić hipotezy zerowej, że dwa eksperymenty dały takie same wyniki
Florian
3

Można uzyskać V Cramera, który można interpretować jako korelację, przekonwertować go na Z. Fishera, a następnie przedział ufności jest prosty (SE = 1 / sqrt (n-3): Z ± se * 1,96). Po uzyskaniu końcówek CI możesz przekonwertować je z powrotem na r.

Czy zastanawiałeś się nad umieszczeniem wszystkich swoich wyników w tabeli awaryjnej z dalszym wymiarem eksperymentu?

Jan
źródło
Myślałem, że nie jest możliwe użycie Phi z dobrością dopasowania chi-kwadrat Pearsona (1 zmienna). Właśnie dlatego mówiłem o w Cohena, ale formuły są naprawdę podobne (phi = X² / n i w = sqrt (X² / n))! Ale jeśli można obliczyć phi za pomocą tego testu i zastosować transformację r do z, czy zgodziłbyś się podać nam odniesienie do wyceny? Chcielibyśmy użyć tego testu w artykule, a niewielu recenzentów może być bardzo wybrednych ze statystykami. To byłaby dla nas świetna pomoc! O twoim pytaniu: nie mamy nieprzetworzonych danych tylko wartość X², df i p z opublikowanego artykułu. Bardzo dziękuję za Twoją pomoc!
Florian
Przepraszam ... chciałem odłożyć Cramera V, nie phi. Cramer V może być używany jak phi.
Jan
I nie, nie mam cytatu. Jeśli masz duży efekt, nie będzie miało znaczenia, czy w tym pomiarze występuje niewielki błąd. Jeśli nie masz dużego efektu, upewnij się, że nie robisz dużych kości na podstawie „znaczenia” jakiegokolwiek testu.
Jan