Jaki wpływ na wyniki formuły proroctwa Spearmana-Browna mają pytania testowe o różnych trudnościach lub oceniający, którzy są łatwymi lub trudnymi równiarkami. Jeden szanowany tekst mówi, że dotyczy to SB, ale nie podaje szczegółów. (Zobacz cytat poniżej.)
Guion, R. M (2011). Ocena, pomiary i przewidywanie decyzji kadrowych, wydanie drugie. Pg 477
„Niezawodność można zwiększyć, łącząc wskaźniki, stosując równanie Spearmana-Browna. ... Jeśli wiarygodność pojedynczej oceny wynosi .50, to wiarygodność dwóch, czterech lub sześciu równoległych ocen wyniesie około .67, .80 i odpowiednio .86 ”(Houston, Raymond i Svec, 1991, s. 409). Podoba mi się ten cytat, ponieważ słowo w przybliżeniu rozpoznaje, że szacunki statystyczne są „średnio” stwierdzeniami tego, czego można się spodziewać, jeśli wszystko pójdzie zgodnie z założeniami. Poza tym słowo operacyjne jest równoległe. Uśrednianie ocen (lub użycie Spearmana-Browna), jeśli jeden oceniający jest na przykład systematycznie łagodny, po prostu nie pasuje do założenia. Jeśli każdy z esejów jest oceniany przez dwa stopnie, jeden łagodniejszy od drugiego, problem polega na tym, że stosuje się dwa testy wielokrotnego wyboru o nierównej trudności (formy nierównoległe). Wyniki oparte na różnych (nierównych) formularzach testowych nie są porównywalne. Tak samo jest z mieszaniem łagodnych i trudnych wskaźników; wiarygodność połączonych ocen jest niepoprawnie oszacowana przez równanie Spearmana-Browna klasycznej teorii testów. Sprawy są gorsze, jeśli każdy sędzia definiuje konstrukt nieco inaczej. ”
źródło
Odpowiedzi:
Chociaż czuję się trochę zakłopotany, zaprzeczając zarówno „szanowanemu tekstowi”, jak i innemu użytkownikowi CV, wydaje mi się, że na formułę Spearmana-Browna nie wpływają przedmioty o różnym stopniu trudności. Dla pewności formuła Spearmana-Browna zwykle wywodzi się z założenia, że mamy równoległe przedmioty, co implikuje (między innymi), że przedmioty mają jednakową trudność. Ale okazuje się, że to założenie nie jest konieczne; można go rozluźnić, aby umożliwić nierówne trudności, a formuła Spearmana-Browna nadal będzie obowiązywać. Pokazuję to poniżej.
Przypomnijmy, że w klasycznej teorii testu przyjmuje się , że pomiar jest sumą składowej „wyniku rzeczywistego” i składowej błędu , to znaczy przy nieskorelowanym iZałożeniem równoległych elementów jest to, że wszystkie elementy mają takie same prawdziwe wyniki, różniące się tylko składowymi błędów, chociaż zakłada się, że mają one jednakową wariancję. Symbolami, dla każdej pary pozycji iT E X = T + E , T E X X ′ T = T ′X T. mi
Teraz, aby uzyskać wiarygodność formy testowej takich przedmiotów. Rozważ test składający się z zasadniczo równoległych pozycji, których suma daje wynik testu. Wiarygodność jest z definicji stosunkiem prawdziwej wariancji punktacji do obserwowanej wariancji punktacji. Jeśli chodzi o niezawodność poszczególnych elementów, z definicji istotnego równoległości wynika, że mają one tę samą niezawodność, którą oznaczamy za pomocą , z jest prawdziwą wariancją wyniku, a wariancją błędu. Aby uzyskać wiarygodność całkowitego wyniku testu, najpierw badamy wariancję całkowitego wyniku testu, który wynosi ρ = σ 2 T / ( σ 2 T + σ 2 E ) σ 2 T σ 2 E var ( k ∑ i = 1 T i + E i )k ρ=σ2T/(σ2T+σ2E) σ2T σ2E
@JeremyMiles podnosi kilka interesujących i ważnych punktów na temat tego, co może się zdarzyć, gdy zwiększymy długość testu „w prawdziwym świecie”, ale przynajmniej zgodnie z wyidealizowanymi założeniami klasycznej teorii testów, różnice w trudnościach przedmiotów nie mają znaczenia dla wiarygodności formularz testowy (w jaskrawym kontraście z założeniami współczesnej teorii odpowiedzi na przedmiot!). Ta sama podstawowa linia rozumowania jest również powodem, dla którego zwykle mówimy o zasadniczej równoważności tau zamiast równoważności tau, ponieważ większość wszystkich ważnych wyników dotyczy bardziej łagodnego przypadku, w którym trudności przedmiotów (tj. Środki) mogą się różnić.
źródło
Nie jest łatwo powiedzieć.
Po pierwsze, Spearman-Brown zakłada, że elementy testowe (lub wskaźniki) są losowo próbkowane z populacji elementów testowych (lub wskaźniki). To nigdy tak naprawdę nie jest prawdziwe, szczególnie w przypadku testów, ponieważ tworzenie większej liczby przedmiotów jest trudne i prawdopodobne jest, że użyjesz lepszych przedmiotów na początek - wtedy przekonasz się, że test musi być dłuższy, więc będziesz „zeskrob beczkę” na przedmioty.
Po drugie, pozycje różnią się pod względem niezawodności, a rzetelność niekoniecznie jest związana z trudnością (jeśli to pomoże, pomyśl o nachyleniu i przecięciu krzywej charakterystycznej pozycji w teorii odpowiedzi na przedmiot). Jednak obliczenia wiarygodności (powiedzmy alfa Cronbacha, która jest formą korelacji wewnątrzklasowej) zakładają, że wszystkie wiarygodności są równe (zakładają zasadniczy model pomiaru równoważności tau - to znaczy, że wszystkie niestandardowe wiarygodności każdej pozycji są wszystkie równy). To prawie na pewno źle. Dodanie elementów może wzrosnąć, może spaść. To zależy od przedmiotów.
Oto inny sposób, aby o tym pomyśleć. Losowo wybieram próbkę z populacji i obliczam średnią i błąd standardowy średniej. Ta średnia będzie bezstronnym estymatorem średniej populacji. Następnie zwiększam rozmiar mojej próbki - oczekiwana wartość średniej jest taka sama, ale jest mało prawdopodobne, że faktycznie będzie taka sama - prawie na pewno wzrośnie lub spadnie. Tak jak spodziewam się, że standardowy błąd zmniejszy się, ale jego skurcz nie będzie spójny (i nie jest niemożliwe, aby standardowy błąd się powiększył).
źródło