Jeśli ostatnio czytałeś biuletyny społecznościowe, prawdopodobnie widziałeś The Hunting of the Snark, post na oficjalnym blogu StackExchange autorstwa Joela Spolsky'ego, CEO sieci StackExchange. Omawia analizę statystyczną przeprowadzoną na próbie komentarzy SE w celu oceny ich „przyjazności” z perspektywy użytkownika zewnętrznego. Komentarze zostały losowo pobrane z StackOverflow, a analitycy treści byli członkami społeczności Mechanical Turk firmy Amazon, rynku pracy, który łączy firmy z pracownikami wykonującymi małe, krótkie zadania za przystępne opłaty.
Nie tak dawno byłem studentem nauk politycznych, a jedną z zajęć, które wziąłem, była analiza treści statystycznych . Ostatnim projektem klasy, a właściwie jej całym celem, było przeprowadzenie szczegółowej analizy raportów wojennych New York Timesa, aby sprawdzić, czy wiele założeń Amerykanów dotyczących relacji z wiadomości podczas wojen było trafnych (spoiler: dowody sugerują, że nie). Projekt był ogromny i dość zabawny, ale zdecydowanie najbardziej bolesną częścią była „faza szkolenia i testowania niezawodności”, która miała miejsce, zanim mogliśmy przeprowadzić pełną analizę. Miał dwa cele (szczegółowy opis znajduje się na stronie 9 w powiązanym artykule, a także odniesienia do standardów niezawodności interkodera w literaturze statystycznej analizy treści):
Potwierdź, że wszyscy koderzy, tj. Czytelnicy treści, zostali przeszkoleni w zakresie tych samych definicji jakościowych. W analizie Joela oznaczało to, że każdy dokładnie wiedziałby, w jaki sposób projekt zdefiniował „przyjazny” i „nieprzyjazny”.
Potwierdź, że wszyscy koderzy rzetelnie zinterpretowali te reguły, tzn. Pobraliśmy próbkę, przeanalizowaliśmy podzbiór, a następnie statystycznie zademonstrowaliśmy, że nasze korelacje par w ocenach jakościowych były dość podobne.
Testy niezawodności zaszkodziły, ponieważ musieliśmy to zrobić trzy lub cztery razy. Dopóki -1- nie zostało zablokowane, a -2- wykazało wystarczająco wysokie korelacje par, nasze wyniki dla pełnej analizy były podejrzane. Nie można ich wykazać jako ważnych lub nieważnych. Co najważniejsze, musieliśmy przeprowadzić pilotażowe testy niezawodności przed ostatecznym zestawem próbek.
Moje pytanie brzmi: w analizie statystycznej Joela brakowało testu niezawodności pilota i nie ustalono żadnych operacyjnych definicji „przyjazności”. Czy ostateczne dane były wystarczająco wiarygodne, aby powiedzieć cokolwiek na temat poprawności statystycznej jego wyników?
Dla jednej perspektywy rozważ ten elementarz pod kątem wartości niezawodności interkodera i spójnych definicji operacyjnych. Z głębiej w tym samym źródle możesz przeczytać o testach niezawodności pilota (pozycja 5 na liście).
Zgodnie z sugestią Andy'ego W. w jego odpowiedzi próbuję obliczyć różnorodne statystyki niezawodności dla zestawu danych, który jest dostępny tutaj, przy użyciu tej serii poleceń w R (zaktualizowanej podczas obliczania nowych statystyk).
Zgodność procentowa (z tolerancją = 0): 0,0143
Zgodność procentowa (z tolerancją = 1): 11,8
Alfa Krippendorffa: 0,1529467
Próbowałem również model odpowiedzi na dane dla tych danych w innym pytaniu.
źródło
Odpowiedzi:
Te środki porozumienia stwierdzają, że praktycznie nie ma porozumienia kategorycznego - każdy programista ma swój własny punkt odcięcia, aby oceniać komentarze jako „przyjazne” lub „nieprzyjazne”.
Jeśli założymy, że trzy kategorie są uporządkowane, tj .: Nieprzyjazny <Neutralny <Przyjazny, możemy również obliczyć korelację wewnątrzklasową jako kolejny miernik zgodności. Na losowej próbie 1000 komentarzy jest ICC (2,1) 0,28 i ICC (2, k) 0,88. Oznacza to, że jeśli weźmiesz tylko jeden z 20 wskaźników, wyniki byłyby bardzo niewiarygodne (.28), jeśli weźmiesz średnio 20 wskaźników, wyniki są wiarygodne (.88). Biorąc różne kombinacje trzech losowych wskaźników, uśredniona niezawodność wynosi od .50 do .60, co nadal byłoby oceniane jako zbyt niskie.
Średnia korelacja dwuwymiarowa między dwoma koderami wynosi 0,34, co również jest dość niskie.
Jeśli te miary zgodności są postrzegane jako miara jakości koderów (którzy faktycznie powinni wykazywać dobrą zgodność), odpowiedź brzmi: nie są oni dobrymi koderami i powinni być lepiej przeszkoleni. Jeśli jest to postrzegane jako miara „jak dobra jest spontaniczna zgoda między przypadkowymi osobami”, odpowiedź brzmi również: niezbyt wysoka. Jako punkt odniesienia średnia korelacja dla ocen atrakcyjności fizycznej wynosi około 0,47 - 0,71 [1]
[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., i Smoot, M. (2000). Maksymy czy mity o pięknie? Przegląd metaanalityczny i teoretyczny. Biuletyn psychologiczny, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390
źródło
Wiarygodność wyników jest często interpretowana w kategoriach klasycznej teorii testów . Tutaj
X
masz prawdziwy wynik, ale to, co zaobserwujesz przy każdym konkretnym wyniku, to nie tylko prawdziwy wynik, ale prawdziwy wynik z pewnym błędem (tjObserved = X + error
.). Teoretycznie, podejmując wiele zaobserwowanych pomiarów tego samego testu podstawowego (przyjmując pewne założenia dotyczące rozkładu błędów tych testów), można następnie zmierzyć nieobserwowany prawdziwy wynik.Zauważ tutaj, w tym środowisku, że musisz założyć, że wiele zaobserwowanych miar mierzy ten sam test podstawowy. Niska wiarygodność elementów testowych jest następnie często traktowana jako dowód, że zaobserwowane miary nie mierzą tego samego testu podstawowego. Jest to tylko konwencja w tej dziedzinie, ale niska niezawodność sama w sobie nie dowodzi (w żadnym sensie statystycznym), że elementy nie mierzą tej samej konstrukcji. Można więc argumentować, że podejmując wiele zaobserwowanych pomiarów, nawet przy bardzo niewiarygodnych testach, można uzyskać wiarygodną miarę prawdziwej punktacji.
Należy również wspomnieć, że klasyczna teoria testów niekoniecznie jest jedynym sposobem interpretacji takich testów, a wielu uczonych twierdzi, że pojęcie zmiennych utajonych i teorii odpowiedzi na odpowiedź jest zawsze bardziej odpowiednie niż klasyczna teoria testów.
Podobne domniemane założenie w klasycznej teorii testów ma również miejsce, gdy ludzie mówią, że niezawodność jest zbyt wysoka. Nie mówi nic o ważności tego, czy dany element (-y) mierzy jakiś podstawowy test, ale że gdy wiarygodność jest zbyt wysoka, badacze biorą to za dowód, że błędy między testami nie są niezależne.
Nie jestem do końca pewien, dlaczego tak bardzo pragniesz nie wchodzić i samodzielnie obliczać wiarygodności. Dlaczego nie można tego zrobić, a następnie zinterpretować analizę w świetle tych dodatkowych informacji?
źródło
before the final analysis
, więc nie jestem całkiem pewien, skąd się to bierze.