W następstwie tego pytania : Wyobraź sobie, że chcesz sprawdzić różnice w tendencji centralnej między dwiema grupami (np. Mężczyznami i kobietami) w 5-punktowym elemencie Likerta (np. Zadowolenie z życia: niezadowolony z zadowolonego). Myślę, że test t byłby wystarczająco dokładny dla większości celów, ale że test ładowania początkowego różnic między średnimi grupowymi często zapewniałby dokładniejsze oszacowanie przedziałów ufności. Jakiego testu statystycznego użyłbyś?
t-test
ordinal-data
likert
scales
Jeromy Anglim
źródło
źródło
Odpowiedzi:
Clason i Dormody omawiali kwestię testowania statystycznego dla pozycji Likerta ( Analizowanie danych mierzonych przez poszczególne pozycje typu Likerta ). Myślę, że test ładowania początkowego jest w porządku, gdy obie dystrybucje wyglądają podobnie (w kształcie dzwonu i równa wariancja). Jednak test danych kategorialnych (np. Trend lub test Fishera lub regresja logistyczna porządkowa) byłby również interesujący, ponieważ pozwala sprawdzić rozkład odpowiedzi między kategoriami pozycji, patrz książka Agresti na temat analizy danych kategorycznych (rozdział 7 dotyczący modeli Logit dla odpowiedzi wielomianowe ).
Poza tym możesz sobie wyobrazić sytuacje, w których test t lub inne testy nieparametryczne zawiodłyby, gdyby rozkład odpowiedzi był silnie niezrównoważony między dwiema grupami. Na przykład, jeśli wszystkie osoby z grupy A odpowiedzą 1 lub 5 (w równych proporcjach), podczas gdy wszystkie osoby z grupy B odpowiedzą 3, to otrzymamy identyczną średnią wewnątrz grupy i test w ogóle nie będzie znaczący, chociaż w tym przypadku założenie homoscedastyczności jest w dużej mierze naruszone.
źródło
W zależności od rozmiaru danego zestawu danych, test permutacji może być lepszy niż bootstrap, ponieważ może być w stanie zapewnić dokładny test hipotezy (i dokładny CI).
źródło
IMHO nie można użyć testu t dla wag Likerta. Skala Likerta jest porządkowa i „wie” tylko o relacjach wartości zmiennej: np. „Całkowicie niezadowolony” jest gorszy niż „w jakiś sposób niezadowolony”. Z drugiej strony test t musi obliczać średnie i więcej, a zatem potrzebuje danych przedziałowych. Możesz odwzorować wyniki skali Likerta na dane przedziałowe („całkowicie niezadowolony” to 1 itd.), Ale nikt nie gwarantuje, że „całkowicie niezadowolony” to taki sam dystans do „w jakiś sposób niezadowolony”, ponieważ „w jakiś sposób niezadowolony” pochodzi od „ani ani”. Nawiasem mówiąc: jaka jest różnica między „całkowicie niezadowolonym” a „w jakiś sposób niezadowolonym”? W końcu wykonasz test t zakodowanych wartości swoich danych porządkowych, ale to po prostu nie ma sensu.
źródło
Jeśli każdy pojedynczy element w kwestionariuszu jest porządkowy, i nie sądzę, aby można było zakwestionować ten punkt, biorąc pod uwagę, że nie ma możliwości dowiedzenia się, czy różnica ilościowa między „zdecydowanie się zgadzam” a „zgadzam się” jest taka sama, jak między „ zdecydowanie się nie zgadzam ”i„ nie zgadzam się ”, to dlaczego sumowanie wszystkich tych skal poziomu porządkowego dawałoby wartość, która dzieli właściwości prawdziwych danych na poziomie przedziału?
Na przykład, jeśli interpretujemy wyniki z wykazu depresji, nie ma sensu (przynajmniej dla mnie) stwierdzenie, że osoba z wynikiem „20” jest dwa razy bardziej przygnębiona niż osoba z wynikiem „ 10 ”. Wynika to z faktu, że każdy element kwestionariusza nie mierzy rzeczywistych różnic w poziomie depresji (zakładając, że depresja jest stabilnym, wewnętrznym, organicznym zaburzeniem), ale raczej subiektywną ocenę zgodności danej osoby z konkretnym stwierdzeniem. Na pytanie „jak przygnębiony powiedziałbyś, że twój nastrój jest w skali od 1 do 4, przy czym 1 jest bardzo przygnębiony, a 4 wcale nie jest osłabiony”, skąd mam wiedzieć, że subiektywna ocena jednego respondenta równa 1 jest taka sama jak ocena innego respondenta ? Albo skąd mam wiedzieć, czy różnica między 4 a 3 jest taka sama jak różnica między 3 a 4 w odniesieniu do osoby „ Obecny poziom depresji. Jeśli nie znamy tego, to nie ma sensu traktować sumowania wszystkich tych porządkowych pozycji jako danych na poziomie przedziału. Nawet jeśli dane tworzą rozkład normalny, nie uważam za właściwe traktowanie różnic między wynikami jako danych na poziomie przedziału, jeśli zostały one obliczone poprzez zsumowanie wszystkich odpowiedzi na elementy lajtowe. Normalny rozkład danych oznacza po prostu, że odpowiedzi są prawdopodobnie reprezentatywne dla większej populacji; nie oznacza to, że wartości uzyskane z zapasów mają ważne właściwości danych na poziomie przedziałów. Uważam, że właściwe jest potraktowanie różnic między wynikami jako danymi na poziomie przedziału, jeśli zostały one obliczone poprzez zsumowanie wszystkich odpowiedzi na elementy lajtowe. Normalny rozkład danych oznacza po prostu, że odpowiedzi są prawdopodobnie reprezentatywne dla większej populacji; nie oznacza to, że wartości uzyskane z zapasów mają ważne właściwości danych na poziomie przedziałów. Uważam, że właściwe jest potraktowanie różnic między wynikami jako danymi na poziomie przedziału, jeśli zostały one obliczone poprzez zsumowanie wszystkich odpowiedzi na elementy lajtowe. Normalny rozkład danych oznacza po prostu, że odpowiedzi są prawdopodobnie reprezentatywne dla większej populacji; nie oznacza to, że wartości uzyskane z zapasów mają ważne właściwości danych na poziomie przedziałów.
Musimy być ostrożni w naukach behawioralnych o tym, w jaki sposób wykorzystujemy statystyki do przemawiania do badanych zmiennych utajonych, ponieważ ponieważ nie ma bezpośredniego sposobu pomiaru tych hipotetycznych konstrukcji, pojawią się znaczące problemy, gdy spróbujemy skwantyfikować je do testów parametrycznych. Ponownie, po prostu dlatego, że przypisaliśmy wartości do zestawu odpowiedzi, nie oznacza, że różnice między tymi wartościami są znaczące.
źródło
Model proporcjonalnego prawdopodobieństwa jest lepszy niż test t dla skali przedmiotów Likerta.
źródło
W tym kontekście postaram się wyjaśnić model proporcjonalnego ilorazu szans, ponieważ został on zasugerowany i wskazany w co najmniej 2 odpowiedziach na to pytanie.
Test punktowy proporcjonalnego modelu szans jest równoważny testowi sumy rang Wilcoxona.
Dokładniej, statystyka testu punktowego dla braku efektu pojedynczego dychotomicznego współzmiennego w modelu regresji logistycznej skumulowanej proporcjonalnej szansy (McCullagh 1980) dla wyniku porządkowego okazała się równa statystyce testu sumy rang Wilcoxona. (Dowód w rozszerzeniu testu sumy rang Wilcoxona dla złożonych danych z badania próby ).
Podobnie jak test sumy rang Wilcoxona, ten test wykrywa, czy dwie próbki zostały pobrane z różnych rozkładów, niezależnie od oczekiwanych wartości.
Ten test jest nieważny, jeśli chcesz tylko wykryć, czy dwie próbki zostały pobrane z rozkładów o różnych oczekiwanych wartościach, podobnie jak test sumy rang Wilcoxona.
źródło