Czytałem w wielu miejscach, że obliczanie średniej zmiennej porządkowej jest niewłaściwe. Próbuję uzyskać intuicję, dlaczego może to być nieodpowiednie. Myślę, że dzieje się tak, ponieważ generalnie zmienna porządkowa nie jest normalnie rozkładana, a zatem obliczenie średniej da niedokładną reprezentację. Czy ktoś mógłby podać bardziej szczegółowe uzasadnienie, dlaczego obliczanie średniej zmiennej porządkowej może być niewłaściwe?
mean
ordinal-data
luciano
źródło
źródło
Odpowiedzi:
Krótka odpowiedź brzmi: jest to sporne. Wbrew podanej przez ciebie radzie, ludzie w wielu dziedzinach używają zwykłych skal i często są szczęśliwi, że robią to, co chcą. Średnie oceny lub równoważne w wielu systemach edukacyjnych są jednym z przykładów.
Jednak dane porządkowe, które nie są normalnie dystrybuowane, nie są prawidłowym powodem, ponieważ średnia to
szeroko stosowany w nietypowych dystrybucjach
dobrze zdefiniowane matematycznie dla bardzo wielu niestandardowych rozkładów, z wyjątkiem niektórych patologicznych przypadków.
Wykorzystanie tego środka w praktyce może nie być dobrym pomysłem, jeśli dane zdecydowanie nie są normalnie dystrybuowane, ale jest inaczej.
Silniejszym powodem nieużywania średniej z danymi porządkowymi jest to, że jej wartość zależy od konwencji kodowania. Kody numeryczne, takie jak 1, 2, 3, 4, są zwykle wybierane dla uproszczenia lub wygody, ale w zasadzie mogą równie dobrze być 1, 23, 456, 7890, o ile odpowiadają one zdefiniowanemu porządkowi. W każdym przypadku zastosowanie środka oznaczałoby przyjęcie tych konwencji dosłownie (mianowicie tak, jakby liczby nie były arbitralne, ale uzasadnione) i nie ma na to surowych podstaw. Potrzebujesz skali interwałowej, w której równe różnice między wartościami można przyjąć dosłownie, aby uzasadnić podjęcie środków. Uważam to za główny argument, ale jak już wskazano, ludzie często go ignorują i celowo, ponieważ uważają, że środki są użyteczne, niezależnie od tego, co mówią teoretycy pomiaru.
Oto dodatkowy przykład. Często ludzie proszeni są o wybranie jednego z „zdecydowanie się nie zgadzam”… „zdecydowanie się zgadzam” i (w zależności częściowo od tego, czego chce oprogramowanie) badacze kodują to jako 1 .. 5 lub 0… 4 lub cokolwiek chcą, lub deklarują to jako czynnik uporządkowany (lub jakikolwiek termin używany przez oprogramowanie). Tutaj kodowanie jest arbitralne i ukryte przed osobami, które odpowiedzą na pytanie.
Ale często ludzie są pytani (powiedzmy) w skali od 1 do 5, jak oceniasz coś? Przykładów jest wiele: strony internetowe, sport, inne rodzaje zawodów, a nawet edukacja. Tutaj pokazano ludziom skalę i poproszono o jej użycie. Powszechnie wiadomo, że liczby całkowite mają sens, ale wolno ci używać liczb całkowitych jako konwencji. Czy ta skala porządkowa? Niektórzy mówią tak, inni mówią nie. Innymi słowy, część problemu polega na tym, że sama skala porządkowa jest obszarem rozmytym lub dyskutowanym.
Rozważmy ponownie oceny z pracy akademickiej, powiedzmy od E do A. Często takie oceny są również traktowane liczbowo, powiedzmy od 1 do 5, i rutynowo ludzie obliczają średnie dla studentów, kursów, szkół itp. I przeprowadzają dalsze analizy takich danych. Chociaż prawdą jest, że wszelkie odwzorowanie na wyniki liczbowe jest arbitralne, ale dopuszczalne, o ile zachowuje porządek, niemniej w praktyce osoby przypisujące i otrzymujące oceny wiedzą, że oceny mają odpowiedniki liczbowe i wiedzą, że oceny zostaną uśrednione .
Jednym z pragmatycznych powodów użycia środków jest to, że mediany i tryby są często złymi podsumowaniami informacji w danych. Załóżmy, że masz skalę od zdecydowanie się nie zgadzam, aby zdecydowanie się zgodzić i dla wygody kodować te punkty od 1 do 5. Teraz wyobraź sobie jedną próbkę o kodach 1, 1, 2, 2, 2 i inną 1, 2, 2, 4, 5. Teraz podnieś twoje ręce, jeśli uważasz, że mediana i tryb są jedynymi uzasadnionymi podsumowaniami, ponieważ jest to skala porządkowa. Teraz podnieś ręce, jeśli uznasz, że środek jest również użyteczny, niezależnie od tego, czy kwoty są dobrze określone itp.
Oczywiście, średnia byłaby podsumowaniem z nadwrażliwością, gdyby kody były kwadratami lub sześcianami od 1 do 5, powiedzmy, i to może nie być to, czego chcesz. (Jeśli Twoim celem jest szybka identyfikacja wysokich poziomów, może być dokładnie tym, czego chcesz!) Ale właśnie dlatego konwencjonalne kodowanie z kolejnymi kodami całkowitymi jest praktycznym wyborem, ponieważ często działa całkiem dobrze w praktyce. Nie jest to argument, który nie ma żadnego znaczenia dla teoretyków pomiarów, nie powinien, ale analitycy danych powinni być zainteresowani tworzeniem bogatych w informacje podsumowań.
Zgadzam się z każdym, kto mówi: używaj całego rozkładu częstotliwości stopni, ale nie o to chodzi.
źródło
Załóżmy, że przyjmujemy wartości porządkowe, np. 1 dla zdecydowanie nie zgadzam się, 2 dla nie zgadzam się, 3 dla zgadzam się i 4 dla zdecydowanie zgadzam się. Jeśli cztery osoby udzielą odpowiedzi 1,2,3 i 4, co by to znaczyło? Jest to (1 + 2 + 3 + 4) /4=2,50.
Jak należy to interpretować, gdy średnia czteroosobowa odpowiedź brzmi „nie zgadzam się lub zgadzam”? Dlatego nie powinniśmy używać średnich dla danych porządkowych.
źródło
Całkowicie zgadzam się z @Azeem. Ale tylko po to, by doprowadzić ten punkt do domu, pozwolę sobie rozwinąć nieco więcej.
Załóżmy, że masz dane porządkowe jak w przykładzie z @Azeem, gdzie twoja skala waha się od 1 do 4. Powiedzmy też, że masz kilka osób oceniających coś (na przykład Lody) w tej skali. Wyobraź sobie, że otrzymujesz następujące wyniki:
Kiedy chcesz zinterpretować wyniki, możesz wyciągnąć wnioski w zakresie:
Jednak nie wiesz nic o odstępach między ocenami. Czy różnica między 1 a 2 jest taka sama jak między 3 a 4? Czy ocena 4 naprawdę oznacza, że dana osoba lubi lody 4 razy bardziej niż osoba, która ocenia ją jako 1? I tak dalej ... Obliczając średnią arytmetyczną, traktujesz liczby tak, jakby różnice między nimi były równe. Ale to dość mocne założenie w przypadku danych porządkowych i musicie to uzasadnić.
źródło
Zgadzam się z koncepcją, że średnia arytmetyczna nie może być naprawdę uzasadniona w danych w skali porządkowej. Zamiast obliczać średnią, możemy użyć trybu lub mediany w takich sytuacjach, co może dać nam bardziej sensowną interpretację naszych wyników.
źródło