Niezawodność między oceniającymi dla danych porządkowych lub przedziałowych

25

Jakie metody wiarygodności między oceniającymi są najbardziej odpowiednie dla danych porządkowych lub przedziałowych?

Uważam, że „wspólne prawdopodobieństwo porozumienia” lub „Kappa” są przeznaczone dla danych nominalnych. Chociaż można użyć „Pearson” i „Spearman”, są one głównie używane w przypadku dwóch wskaźników pomiarowych (chociaż można je stosować w więcej niż dwóch wskaźnikach).

Jakie inne miary są odpowiednie dla danych porządkowych lub przedziałowych, tj. Więcej niż dwa wskaźniki?

Shadi
źródło

Odpowiedzi:

29

Statystyka Kappa ( ) jest wskaźnikiem jakości, który porównuje zaobserwowaną zgodność między 2 wskaźnikami w skali nominalnej lub porządkowej z poziomem zgodności oczekiwanym przez sam przypadek (tak, jakby wskaźniki zmieniły się). Istnieją rozszerzenia dla przypadku wielu wskaźników (2, s. 284–291). W przypadku danych porządkowych można użyć ważonego κ , który zasadniczo odczytuje jak zwykle κ z elementami o przekątnej przyczyniającymi się do pomiaru zgodności. Fleiss (3) przedstawił wytyczne do interpretacji wartości κ , ale są to jedynie podstawowe zasady.κ κκκ

κ

κ

kWn>7k(n1)Wχ2(n1)nkFρWStatystyka: można obliczyć bezpośrednio ze średniej korelacji Spearmana w parach (tylko dla niezwiązanych obserwacji).W

Korelację polichoryczną (dane porządkowe) można również wykorzystać jako miarę porozumienia między osobami oceniającymi . Rzeczywiście pozwalają

  • oszacować, jaka byłaby korelacja, gdyby oceny były dokonywane w ciągłej skali,
  • test marginalnej jednorodności między wskaźnikami.

W rzeczywistości można wykazać, że jest to szczególny przypadek modelowania cech ukrytych, który pozwala rozluźnić założenia dystrybucyjne (4).

Jeśli chodzi o pomiary ciągłe (lub tak zakładane), ICC, która określa ilościowo wariancję przypisywaną wariancji między podmiotami, jest w porządku. Ponownie zalecane są elementy CI z bootstrapem. Jak powiedział @ars, istnieją zasadniczo dwie wersje - zgodność i spójność - które mają zastosowanie w przypadku badań zgodności (5), i które różnią się głównie sposobem obliczania sumy kwadratów; „spójność” ICC jest ogólnie szacowana bez uwzględnienia interakcji pozycja x oceniający. Struktura ANOVA jest przydatna w przypadku konkretnego projektu bloku, w którym chce się zminimalizować liczbę ocen ( BIBD ) - w rzeczywistości była to jedna z pierwotnych motywacji pracy Fleiss. Jest to również najlepsza droga dla wielu mierników. Naturalne rozszerzenie tego podejścia nazywa się teorią generalizowalności . Krótki przegląd znajduje się w Rater Models: An Introduction , w przeciwnym razie standardowym odniesieniem jest książka Brennan, recenzowana w Psychometrika 2006 71 (3) .

Co do ogólnych odniesień, polecam rozdział 3 statystyk w psychiatrii od Grahama Dunna (Hodder Arnold, 2000). Aby uzyskać pełniejszą analizę badań niezawodności, najlepszym odniesieniem do tej pory jest

Dunn, G (2004). Projektowanie i analiza badań niezawodności . Arnold. Zobacz recenzję w International Journal of Epidemiology .

Dobre wprowadzenie online jest dostępne na stronie internetowej Johna Uebersaxa, Intraclass Correlation and Related Methods ; zawiera omówienie zalet i wad podejścia ICC, szczególnie w odniesieniu do skal porządkowych.

Odpowiednie pakiety R do dwukierunkowej oceny (pomiary porządkowe lub ciągłe) znajdują się w widoku zadań psychometrii ; Zazwyczaj używam pakietów psy , psych lub irrit . Jest też pakiet zgody , ale nigdy go nie użyłem. Aby poradzić sobie z więcej niż dwoma miernikami, pakiet lme4 jest dobrym rozwiązaniem, ponieważ pozwala łatwo włączyć losowe efekty, ale większość projektów niezawodności można analizować za pomocą, aov()ponieważ musimy tylko oszacować komponenty wariancji.

Referencje

  1. J Cohen. Ważona kappa: Nominalne porozumienie dotyczące skali z zastrzeżeniem niezgodności skal częściowego kredytu. Psychological Bulletin , 70 , 213–220, 1968.
  2. S Siegel i Jr N. John Castellan. Statystyka nieparametryczna dla nauk behawioralnych . McGraw-Hill, drugie wydanie, 1988.
  3. JL Fleiss. Metody statystyczne dla stawek i proporcji . New York: Wiley, drugie wydanie, 1981.
  4. JS Uebersax. Współczynniki korelacji tetrachorycznej i polichorycznej . Metody statystyczne strony internetowej Rater Agreement, 2006. Dostępne pod adresem: http://john-uebersax.com/stat/tetra.htm . Dostęp 24 lutego 2010 r.
  5. PE Shrout i JL Fleiss. Korelacja międzyklasowa: Wykorzystuje się do oceny wiarygodności oceny . Psychological Bulletin , 86 , 420–428, 1979.
  6. MG Kendall i B. Babington Smith. Problem rankingu m . Annals of Mathematical Statistics , 10 , 275–287, 1939.
  7. P Legendre. Współczynnik zgodności . W NJ Salkind, redaktor, Encyclopedia of Research Design . Publikacje SAGE, 2010.
  8. JL Fleiss. Równoważność ważonej kappa i współczynnik korelacji wewnątrzklasowej jako miary niezawodności . Educational and Psychological Measurement , 33 , 613-619, 1973.
chl
źródło
3
Trzy dodatkowe odniesienia: 1. Beyond Kappa: Przegląd środków umowy między podmiotami dokonanymi przez Mousumi Banerjee, Michelle Capozzoli, Laurę McSweeney i Debajyoti Sinha 2. Interrater niezawodność i zgodność ocen wydajności: porównanie metodologiczne przez Johna W. Fleenora, Julie B. Fleenor & William F. Grossnickle
M. Tibbits
3. Metody statystyczne oceny błędu pomiaru (niezawodności) w zmiennych istotnych dla medycyny sportowej. autor: Atkinson G i Nevill AM. Pierwsze odniesienie jest specyficzne dla danych porządkowych i omawia inne miary poza kappa dla danych porządkowych. Drugi i trzeci są specyficzne dla danych przedziałowych.
M. Tibbits,
(+1) Wielkie dzięki M. Tibbits! Na ogół dostarczam wiele odniesień i przykładów podczas moich wykładów z psychometrii, w tym pierwszego cytowanego przez ciebie, ale nie znałem dwóch pozostałych.
chl
Dodatkowo pakiet porządkowy umożliwia modelowanie wielopoziomowe, takie jak lme4, ale z regresją porządkową.
Jan