Jestem trochę zdezorientowany, jeśli chodzi o współczynnik korelacji wewnątrzklasowej i jednokierunkową ANOVA. Jak rozumiem, oba mówią ci, jak podobne są obserwacje w grupie, w porównaniu z obserwacjami w innych grupach.
Czy ktoś mógłby wyjaśnić to nieco lepiej, a może wyjaśnić sytuację, w której każda metoda jest bardziej korzystna?
Odpowiedzi:
Obie metody opierają się na tym samym pomyśle, polegającym na rozkładaniu obserwowanej wariancji na różne części lub komponenty. Istnieją jednak subtelne różnice w tym, czy traktujemy przedmioty i / lub mierniki jako efekty stałe czy losowe. Oprócz powiedzenia, jaka część całkowitej zmienności jest wyjaśniona przez czynnik między (lub o ile różnica między odchyleniem odbiega od wariancji resztkowej), test F nie mówi wiele. Przynajmniej dotyczy to jednokierunkowej ANOVA, w której zakładamy stały efekt (i który odpowiada opisanemu poniżej ICC (1,1)). Z drugiej strony ICC zapewnia ograniczony indeks przy ocenie wiarygodności ratingowej dla kilku wskaźników „wymiennych” lub jednorodności między jednostkami analitycznymi.
Zazwyczaj dokonujemy następującego rozróżnienia między różnymi rodzajami kart ICC. Wynika to z przełomowego dzieła Shrout and Fleiss (1979):
Odpowiada to przypadkom od 1 do 3 w tabeli 1. Można wprowadzić dodatkowe rozróżnienie w zależności od tego, czy uważamy, że zaobserwowane oceny są średnią z kilku ocen (nazywane są ICC (1, k), ICC (2, k), i ICC (3, k)) lub nie.
Podsumowując, musisz wybrać odpowiedni model (jednokierunkowy vs. dwukierunkowy), co zostało w dużej mierze omówione w pracy Shrout i Fleiss. Model jednokierunkowy ma tendencję do uzyskiwania mniejszych wartości niż model dwukierunkowy; podobnie model efektów losowych generalnie daje niższe wartości niż model efektów stałych. ICC pochodząca z modelu efektów stałych jest uważana za sposób oceny spójności wskaźników (ponieważ ignorujemy wariancję oceny), natomiast w przypadku modelu efektów losowych mówimy o oszacowaniu zgodności wskaźników (niezależnie od tego, czy wskaźniki są wymienne, czy nie). Tylko modele dwukierunkowe uwzględniają interakcję rater x podmiot, co może być interesujące, gdy próbuje się rozwikłać nietypowe wzorce oceny.
Poniższy rysunek łatwo kopii / pasty przykład z
ICC()
w psych pakietu (dane pochodzą z Shrout i Fleiss, 1979). Dane składają się z 4 sędziów (J) posiadających 6 badanych lub celów (S) i są podsumowane poniżej (założę, że są przechowywane jako macierz R o nazwiesf
)Ten przykład jest interesujący, ponieważ pokazuje, jak wybór modelu może wpłynąć na wyniki, a zatem interpretację badania wiarygodności. Wszystkie 6 modeli ICC przedstawia się następująco (jest to Tabela 4 w pracy Shrout i Fleiss)
Jak można zauważyć, uznanie mierników za efekty ustalone (a zatem nie próbowanie uogólnienia do szerszej puli mierników) dałoby znacznie wyższą wartość jednorodności pomiaru. (Podobne wyniki można uzyskać przy pomocy pakietem irr (
icc()
), chociaż musimy bawić się inną opcją dla typu modelu i jednostki analizy.)Co mówi nam podejście ANOVA? Musimy dopasować dwa modele, aby uzyskać odpowiednie średnie kwadraty:
Nie trzeba patrzeć na test F, interesujące są tylko państwa członkowskie.
Teraz możemy złożyć różne elementy w rozszerzonym Stole ANOVA, który wygląda jak ten pokazany poniżej (jest to Tabela 3 w pracy Shrout i Fleiss):
(źródło: mathurl.com )
gdzie pierwsze dwa rzędy pochodzą z modelu jednokierunkowego, podczas gdy dwa następne pochodzą z dwustronnej ANOVA.
Łatwo jest sprawdzić wszystkie formuły w artykule Shrout i Fleiss, a my mamy wszystko, czego potrzebujemy, aby oszacować wiarygodność pojedynczej oceny . Co z wiarygodnością średniej z wielu ocen (która często jest wielkością zainteresowania badaniami między oceniającymi )? Po Hays i Revicki (2005) można go uzyskać z powyższego rozkładu po prostu zmieniając całkowitą stwardnienie rozsiane rozważane w mianowniku, z wyjątkiem dwukierunkowego modelu efektów losowych, dla którego musimy przepisać stosunek stwardnienia rozsianego.
Ponownie stwierdzamy, że ogólna niezawodność jest wyższa, gdy rozważa się wskaźniki jako efekty stałe.
Bibliografia
źródło