Różnice grupowe dla pięciopunktowego elementu Likerta

22

W następstwie tego pytania : Wyobraź sobie, że chcesz sprawdzić różnice w tendencji centralnej między dwiema grupami (np. Mężczyznami i kobietami) w 5-punktowym elemencie Likerta (np. Zadowolenie z życia: niezadowolony z zadowolonego). Myślę, że test t byłby wystarczająco dokładny dla większości celów, ale że test ładowania początkowego różnic między średnimi grupowymi często zapewniałby dokładniejsze oszacowanie przedziałów ufności. Jakiego testu statystycznego użyłbyś?

Jeromy Anglim
źródło
2
Powiązane pytanie: ludzie często używają nieparametrycznego testu Manna-Whitneya dla tego rodzaju danych. Ponieważ istnieje tylko pięć możliwych wartości, będzie wiele powiązanych szeregów. Test Manna-Whitneya dostosowuje się do powiązanych szeregów, ale czy to dostosowanie działa, gdy istnieje ogromna liczba powiązań?
Harvey Motulsky
5
Być może zainteresuje Cię ten najnowszy artykuł opublikowany w PARE, Five-Point Likert Items: t test kontra Mann-Whitney-Wilcoxon , j.mp/biLWrA .
chl
Nie jestem pewien, czy odpowiedni jest również test chi-kwadrat, sprawdza on, czy istnieje jakaś zależność między grupami i elementami (różny rozkład między grupami).
pe-pe-rry

Odpowiedzi:

12

Clason i Dormody omawiali kwestię testowania statystycznego dla pozycji Likerta ( Analizowanie danych mierzonych przez poszczególne pozycje typu Likerta ). Myślę, że test ładowania początkowego jest w porządku, gdy obie dystrybucje wyglądają podobnie (w kształcie dzwonu i równa wariancja). Jednak test danych kategorialnych (np. Trend lub test Fishera lub regresja logistyczna porządkowa) byłby również interesujący, ponieważ pozwala sprawdzić rozkład odpowiedzi między kategoriami pozycji, patrz książka Agresti na temat analizy danych kategorycznych (rozdział 7 dotyczący modeli Logit dla odpowiedzi wielomianowe ).

Poza tym możesz sobie wyobrazić sytuacje, w których test t lub inne testy nieparametryczne zawiodłyby, gdyby rozkład odpowiedzi był silnie niezrównoważony między dwiema grupami. Na przykład, jeśli wszystkie osoby z grupy A odpowiedzą 1 lub 5 (w równych proporcjach), podczas gdy wszystkie osoby z grupy B odpowiedzą 3, to otrzymamy identyczną średnią wewnątrz grupy i test w ogóle nie będzie znaczący, chociaż w tym przypadku założenie homoscedastyczności jest w dużej mierze naruszone.

chl
źródło
Artykuł Clason and Dormody wygląda dobrze. Komentarze do dystrybucji odpowiedzi są interesujące do rozważenia. Zgadzam się, że różnice w rozkładach mogą być interesujące. Ale jeśli interesuje Cię tylko to, czy średnie grupowe są różne, nie musi mieć znaczenia, jakie rozkłady doprowadziły do ​​takiej równości.
Jeromy Anglim,
W tym przypadku zakładasz, że twoja skala Likerta (innymi słowy, postrzegana różnica między, np. Bardzo zadowolona i „tylko” zadowolona) zachowuje się idealnie i jest postrzegana jako mająca takie samo znaczenie w obu populacjach. W ten sposób domyślnie przyjmujecie założenie, że jest to skala liczbowa, ale zgadzam się, że jest to często brane pod uwagę w badaniach stosowanych, szczególnie jeśli uczestnicy pochodzą z tego samego kraju. Chciałem tylko podkreślić perspektywę analizy danych kategorycznych, jak zwykle znajduje się w tradycji analizy czynnikowej, jak w mojej odpowiedzi na pytanie nr 10.
chl,
Zakładam, że średnia próby odpowiadającej na element Likerta jest ogólnie znaczącym podsumowaniem pozycji grupy w wymiarze podstawowym. Interesujące jest zastanowienie się, kiedy znaczenie elementu Likerta zmienia się systematycznie między grupami. Oczywiście problem ten wykracza poza zwykłe pozycje Likerta, prawdopodobnie do każdej subiektywnej procedury pomiarowej.
Jeromy Anglim,
8

W zależności od rozmiaru danego zestawu danych, test permutacji może być lepszy niż bootstrap, ponieważ może być w stanie zapewnić dokładny test hipotezy (i dokładny CI).

russellpierce
źródło
4

IMHO nie można użyć testu t dla wag Likerta. Skala Likerta jest porządkowa i „wie” tylko o relacjach wartości zmiennej: np. „Całkowicie niezadowolony” jest gorszy niż „w jakiś sposób niezadowolony”. Z drugiej strony test t musi obliczać średnie i więcej, a zatem potrzebuje danych przedziałowych. Możesz odwzorować wyniki skali Likerta na dane przedziałowe („całkowicie niezadowolony” to 1 itd.), Ale nikt nie gwarantuje, że „całkowicie niezadowolony” to taki sam dystans do „w jakiś sposób niezadowolony”, ponieważ „w jakiś sposób niezadowolony” pochodzi od „ani ani”. Nawiasem mówiąc: jaka jest różnica między „całkowicie niezadowolonym” a „w jakiś sposób niezadowolonym”? W końcu wykonasz test t zakodowanych wartości swoich danych porządkowych, ale to po prostu nie ma sensu.

xmjx
źródło
9
... a jednak jest to często robione. Należy zwrócić uwagę na jedną rzecz: tak, jest to trochę pedantyczne, jeśli używasz pojedynczego przedmiotu typu Likert, który nie jest skalą Likerta. Różnica jest znacząca (chociaż pytający mówi o elemencie Likerta, a porządek jest problemem). Skala Likerta jest konsekwencją sumowania lub uśrednienia kilku pozycji Likerta. Podejście to zostało opracowane specjalnie w celu zrównoważenia zakresu, w jakim dane porządkowe były rzeczywiście porządkowe, i aby rozsądniej było traktować je jako skalę przedziałową.
russellpierce
3

Jeśli każdy pojedynczy element w kwestionariuszu jest porządkowy, i nie sądzę, aby można było zakwestionować ten punkt, biorąc pod uwagę, że nie ma możliwości dowiedzenia się, czy różnica ilościowa między „zdecydowanie się zgadzam” a „zgadzam się” jest taka sama, jak między „ zdecydowanie się nie zgadzam ”i„ nie zgadzam się ”, to dlaczego sumowanie wszystkich tych skal poziomu porządkowego dawałoby wartość, która dzieli właściwości prawdziwych danych na poziomie przedziału?

Na przykład, jeśli interpretujemy wyniki z wykazu depresji, nie ma sensu (przynajmniej dla mnie) stwierdzenie, że osoba z wynikiem „20” jest dwa razy bardziej przygnębiona niż osoba z wynikiem „ 10 ”. Wynika to z faktu, że każdy element kwestionariusza nie mierzy rzeczywistych różnic w poziomie depresji (zakładając, że depresja jest stabilnym, wewnętrznym, organicznym zaburzeniem), ale raczej subiektywną ocenę zgodności danej osoby z konkretnym stwierdzeniem. Na pytanie „jak przygnębiony powiedziałbyś, że twój nastrój jest w skali od 1 do 4, przy czym 1 jest bardzo przygnębiony, a 4 wcale nie jest osłabiony”, skąd mam wiedzieć, że subiektywna ocena jednego respondenta równa 1 jest taka sama jak ocena innego respondenta ? Albo skąd mam wiedzieć, czy różnica między 4 a 3 jest taka sama jak różnica między 3 a 4 w odniesieniu do osoby „ Obecny poziom depresji. Jeśli nie znamy tego, to nie ma sensu traktować sumowania wszystkich tych porządkowych pozycji jako danych na poziomie przedziału. Nawet jeśli dane tworzą rozkład normalny, nie uważam za właściwe traktowanie różnic między wynikami jako danych na poziomie przedziału, jeśli zostały one obliczone poprzez zsumowanie wszystkich odpowiedzi na elementy lajtowe. Normalny rozkład danych oznacza po prostu, że odpowiedzi są prawdopodobnie reprezentatywne dla większej populacji; nie oznacza to, że wartości uzyskane z zapasów mają ważne właściwości danych na poziomie przedziałów. Uważam, że właściwe jest potraktowanie różnic między wynikami jako danymi na poziomie przedziału, jeśli zostały one obliczone poprzez zsumowanie wszystkich odpowiedzi na elementy lajtowe. Normalny rozkład danych oznacza po prostu, że odpowiedzi są prawdopodobnie reprezentatywne dla większej populacji; nie oznacza to, że wartości uzyskane z zapasów mają ważne właściwości danych na poziomie przedziałów. Uważam, że właściwe jest potraktowanie różnic między wynikami jako danymi na poziomie przedziału, jeśli zostały one obliczone poprzez zsumowanie wszystkich odpowiedzi na elementy lajtowe. Normalny rozkład danych oznacza po prostu, że odpowiedzi są prawdopodobnie reprezentatywne dla większej populacji; nie oznacza to, że wartości uzyskane z zapasów mają ważne właściwości danych na poziomie przedziałów.

Musimy być ostrożni w naukach behawioralnych o tym, w jaki sposób wykorzystujemy statystyki do przemawiania do badanych zmiennych utajonych, ponieważ ponieważ nie ma bezpośredniego sposobu pomiaru tych hipotetycznych konstrukcji, pojawią się znaczące problemy, gdy spróbujemy skwantyfikować je do testów parametrycznych. Ponownie, po prostu dlatego, że przypisaliśmy wartości do zestawu odpowiedzi, nie oznacza, że ​​różnice między tymi wartościami są znaczące.

Justin
źródło
1
Jeśli lubisz sumować wyniki przedmiotów, to już przyjąłeś więcej niż ściśle porządkowy poziom pomiaru. Ściśle mówiąc, miar porządkowych nie można znacząco dodawać ani uśredniać (nawiasem mówiąc, Stevens ma o tym jasność). Gdy to zrobisz, traktowanie uzyskanych wyników jako danych na poziomie przedziału jest całkowicie uzasadnione.
Gala,
0

Model proporcjonalnego prawdopodobieństwa jest lepszy niż test t dla skali przedmiotów Likerta.

Wojtek
źródło
1
Czy chcesz wyjaśnić swoje powody? Widzę, jak taki model może zapewnić bardziej precyzyjny model obserwowanych odpowiedzi. Jednak w typowych praktycznych sytuacjach badawczych, które widziałem, badacze są zainteresowani tym, czy te dwie grupy różnią się pod względem średniej (np. Czy grupa szkoleniowa zgłosiła lepsze wyniki niż kontrola; czy zadowolenie studenta było wyższe z roku na rok ). Model proporcjonalnego ilorazu szans nie sprawdza tego pytania dokładnie, o ile mi wiadomo.
Jeromy Anglim,
0

W tym kontekście postaram się wyjaśnić model proporcjonalnego ilorazu szans, ponieważ został on zasugerowany i wskazany w co najmniej 2 odpowiedziach na to pytanie.

Test punktowy proporcjonalnego modelu szans jest równoważny testowi sumy rang Wilcoxona.

Dokładniej, statystyka testu punktowego dla braku efektu pojedynczego dychotomicznego współzmiennego w modelu regresji logistycznej skumulowanej proporcjonalnej szansy (McCullagh 1980) dla wyniku porządkowego okazała się równa statystyce testu sumy rang Wilcoxona. (Dowód w rozszerzeniu testu sumy rang Wilcoxona dla złożonych danych z badania próby ).

Podobnie jak test sumy rang Wilcoxona, ten test wykrywa, czy dwie próbki zostały pobrane z różnych rozkładów, niezależnie od oczekiwanych wartości.

Ten test jest nieważny, jeśli chcesz tylko wykryć, czy dwie próbki zostały pobrane z rozkładów o różnych oczekiwanych wartościach, podobnie jak test sumy rang Wilcoxona.

Marko Lalović
źródło