Obliczanie wariancji Kappa Cohena (i standardowych błędów)

44

Statystyka Kappa ( ) została wprowadzona w 1960 roku przez Cohena [1] w celu zmierzenia zgodności między dwoma wskaźnikami. Ta wariancja była jednak źródłem sprzeczności od dłuższego czasu.κ

Moje pytanie dotyczy tego, które jest najlepsze obliczenie wariancji do zastosowania z dużymi próbkami. Jestem skłonny wierzyć, że ten przetestowany i zweryfikowany przez Fleiss [2] byłby właściwym wyborem, ale nie wydaje się, aby był to jedyny opublikowany, który wydaje się poprawny (i używany w dość nowej literaturze).

Obecnie mam dwa konkretne sposoby obliczenia asymptotycznej wariancji dużej próbki:

  • Poprawiona metoda opublikowana przez Fleiss, Cohen i Everitt [2];
  • Metoda delta, którą można znaleźć w książce Colgatona, 2009 [4] (strona 106).

Aby zilustrować niektóre z tych nieporozumień, oto cytat Fleissa, Cohena i Everitta [2], podkreśl moje:

Wiele ludzkich wysiłków zostało przeklętych powtarzającymi się niepowodzeniami, zanim osiągnięto ostateczny sukces. Jednym z przykładów jest skalowanie Mount Everest. Odkrycie Pasażu Północno-Zachodniego to sekunda. Wyprowadzenie poprawnego błędu standardowego dla kappa jest trzecim .

Oto krótkie podsumowanie tego, co się stało:

  • 1960: Cohen publikuje swój artykuł „Współczynnik zgodności dla skal nominalnych” [1], wprowadzając skorygowaną szansą miarę zgodności między dwoma miernikami o nazwie . Publikuje jednak nieprawidłowe formuły do ​​obliczeń wariancji.κ
  • 1968: Everitt próbuje je poprawić, ale jego formuły również są niepoprawne.
  • 1969: Fleiss, Cohen i Everitt publikują poprawne formuły w artykule „Large Sample Standard Errors Of Kappa and Weighted Kappa” [2].
  • 1971: Fleiss publikuje inną statystykę (ale inną) pod tą samą nazwą, z niepoprawnymi formułami dla wariancji.κ
  • 1979: Fleiss Nee i Landis publikują poprawione formuły dla Fleiss ' .κ

Najpierw rozważ następującą notację. Zapis ten oznacza, że ​​operator sumowania należy zastosować do wszystkich elementów w wymiarze, nad którym umieszczona jest kropka:

   pi.=j=1kpij    p.j=i=1kpij

Teraz można obliczyć Kappa jako:

   κ^=popc1pe

W którym

   po=i=1kpii to przestrzegana zgoda, i

   pc=i=1kpi.p.i jest umową losową.

Jak dotąd prawidłowe obliczenie wariancji dla Cohena podaje:κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

a pod hipotezą zerową podaje ją:

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

Metoda Congaltona wydaje się opierać na metodzie delta do uzyskiwania wariancji (Agresti, 1990; Agresti, 2002); jednak nie jestem pewien, co to jest metoda delta ani dlaczego należy jej użyć. wariancji w ramach tej metody jest dana przez:κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

w którym

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Congalton używa indeksu zamiast a , Ale wydaje się to znaczyć to samo. Ponadto przypuszczam, że powinna być macierzą liczącą, tj. Macierzą pomieszania, zanim zostanie podzielona przez liczbę próbek jako powiązane wzorem )+.nijpij=nijsamples

Inną dziwną częścią jest to, że książka Colgatona zdaje się odwoływać do oryginalnej pracy Cohena, ale nie wydaje się przytaczać poprawek do wariancji Kappa opublikowanej przez Fleiss i in., Dopóki nie omówi ważonej Kappy. Być może jego pierwsza publikacja została napisana, gdy prawdziwa formuła kappa wciąż była zagubiona?

Czy ktoś jest w stanie wyjaśnić, dlaczego te różnice? Albo dlaczego ktoś miałby używać wariancji metody delta zamiast poprawionej wersji Fleiss?

[1]: Fleiss, Joseph L .; Cohen, Jakub; Everitt, BS; Duże przykładowe błędy standardowe kappa i ważonej kappa. Psychological Bulletin, tom 72 (5), listopad 1969, 323-327. doi: 10.1037 / h0028106

[2]: Cohen, Jacob (1960). Współczynnik zgodności dla skal nominalnych. Pomiary edukacyjne i psychologiczne 20 (1): 37–46. DOI: 10.1177 / 001316446002000104.

[3]: Alan Agresti, Analiza danych kategorialnych, wydanie drugie. John Wiley and Sons, 2002.

[4]: Russell G. Congalton i Green, K .; Ocena dokładności danych wykrywanych zdalnie: zasady i praktyki, wydanie drugie. 2009.

Cesar
źródło
niektóre z twoich nawiasów są wyłączone, czy możesz je naprawić? Możesz także sformatować zagnieżdżone nawiasy jako {[(x + y) ^ z + a] ^ b - c}, aby były bardziej czytelne.
StasK,
proszę również podać sam i alternatywne równoważne sformułowania, jeśli istnieją. W zależności od konkretnych alternatywnych receptur wyrażenia wariancji mogą być łatwiejsze do uzyskania. (Myślę o indeksie Giniego, dla którego istnieje około pięciu sformułowań dla danych iid, które implikują zupełnie różne estymatory wariancji dla złożonych danych ankietowych.)κ
StasK
Dzięki za opinie. Poprawiłem formuły i dodałem sposób obliczania Kappa. Formuła Kappa wydaje się spójna w literaturze, tylko jej wariancja nie.
Cesar
1
Nawiasem mówiąc, właśnie zauważyłem błąd w druku w książce Colgatona: definiuje , ale to pochodzi znikąd. Przypuszczam, że miało to być , w przeciwnym razie nie jestem pewien, czy to ma sens. pc=i=1kpi+p+jjpc=i=1kpi+p+i
Cesar
2
Mogę przynajmniej daje rękę z tej strony: „Nie jestem pewien, co metoda delta” - en.wikipedia.org/wiki/Delta_method i wariancja nie pochodzi od tutaj
Glen_b

Odpowiedzi:

7

Nie wiem, który z dwóch sposobów obliczania wariancji jest preferowany, ale mogę podać trzeci, praktyczny i użyteczny sposób obliczania ufności / wiarygodnych przedziałów przy użyciu bayesowskiej oceny Kappa Cohena.

Poniższy kod R i JAGS generuje próbki MCMC z tylnego rozkładu wiarygodnych wartości Kappa, biorąc pod uwagę dane.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

Poniższy wykres pokazuje wykres gęstości próbek MCMC z tylnego rozkładu Kappa.

Gęstość tylnej Kappa

Korzystając z próbek MCMC, możemy teraz użyć wartości mediany jako oszacowania Kappa i użyć kwantyli 2,5% i 97,5% jako 95% przedział ufności / wiarygodności.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

Porównaj to z „klasycznymi” szacunkami obliczonymi według Fleiss, Cohen i Everitt:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Osobiście wolałbym przedział ufności Bayesa od klasycznego przedziału ufności, zwłaszcza że uważam, że przedział ufności Bayesa ma lepsze właściwości małej próbki. Powszechną troską, jaką ludzie mają zwykle przy analizach bayesowskich, jest konieczność określenia wcześniejszych przekonań dotyczących rozkładu parametrów. Na szczęście w tym przypadku łatwo jest zbudować „obiektywne” priory, po prostu umieszczając jednolite rozkłady dla wszystkich parametrów. Powinno to uczynić wynik modelu bayesowskiego bardzo podobnym do „klasycznego” obliczenia współczynnika Kappa.

Bibliografia

Sanjib Basu, Mousumi Banerjee i Ananda Sen (2000). Wnioskowanie bayesowskie dla Kappa z badań pojedynczych i wielokrotnych. Biometrics , Vol. 56, nr 2 (Jun., 2000), str. 577-582

Rasmus Bååth
źródło
Czy wiesz, czy jest to rozszerzenie dla więcej niż dwóch raterów?
Fomite