Oblicz średnią zmiennej porządkowej

20

Czytałem w wielu miejscach, że obliczanie średniej zmiennej porządkowej jest niewłaściwe. Próbuję uzyskać intuicję, dlaczego może to być nieodpowiednie. Myślę, że dzieje się tak, ponieważ generalnie zmienna porządkowa nie jest normalnie rozkładana, a zatem obliczenie średniej da niedokładną reprezentację. Czy ktoś mógłby podać bardziej szczegółowe uzasadnienie, dlaczego obliczanie średniej zmiennej porządkowej może być niewłaściwe?

luciano
źródło
8
Aby obliczyć średnią, najpierw potrzebujesz sumy. Aby suma była znacząca, potrzebujesz, aby 4 + 2 było takie samo jak 3 + 3; równoważnie potrzebujesz 4-3 = 3-2 = 2-1. W przypadku danych porządkowych - nawet jeśli ich kategorie są oznaczone jako „1”, „2”, „3”, „4” - niekoniecznie tak jest.
Glen_b
I dlaczego mediana byłaby bardziej odpowiednia niż średnia arytmetyczna?

Odpowiedzi:

24

Krótka odpowiedź brzmi: jest to sporne. Wbrew podanej przez ciebie radzie, ludzie w wielu dziedzinach używają zwykłych skal i często są szczęśliwi, że robią to, co chcą. Średnie oceny lub równoważne w wielu systemach edukacyjnych są jednym z przykładów.

Jednak dane porządkowe, które nie są normalnie dystrybuowane, nie są prawidłowym powodem, ponieważ średnia to

  • szeroko stosowany w nietypowych dystrybucjach

  • dobrze zdefiniowane matematycznie dla bardzo wielu niestandardowych rozkładów, z wyjątkiem niektórych patologicznych przypadków.

Wykorzystanie tego środka w praktyce może nie być dobrym pomysłem, jeśli dane zdecydowanie nie są normalnie dystrybuowane, ale jest inaczej.

Silniejszym powodem nieużywania średniej z danymi porządkowymi jest to, że jej wartość zależy od konwencji kodowania. Kody numeryczne, takie jak 1, 2, 3, 4, są zwykle wybierane dla uproszczenia lub wygody, ale w zasadzie mogą równie dobrze być 1, 23, 456, 7890, o ile odpowiadają one zdefiniowanemu porządkowi. W każdym przypadku zastosowanie środka oznaczałoby przyjęcie tych konwencji dosłownie (mianowicie tak, jakby liczby nie były arbitralne, ale uzasadnione) i nie ma na to surowych podstaw. Potrzebujesz skali interwałowej, w której równe różnice między wartościami można przyjąć dosłownie, aby uzasadnić podjęcie środków. Uważam to za główny argument, ale jak już wskazano, ludzie często go ignorują i celowo, ponieważ uważają, że środki są użyteczne, niezależnie od tego, co mówią teoretycy pomiaru.

Oto dodatkowy przykład. Często ludzie proszeni są o wybranie jednego z „zdecydowanie się nie zgadzam”… „zdecydowanie się zgadzam” i (w zależności częściowo od tego, czego chce oprogramowanie) badacze kodują to jako 1 .. 5 lub 0… 4 lub cokolwiek chcą, lub deklarują to jako czynnik uporządkowany (lub jakikolwiek termin używany przez oprogramowanie). Tutaj kodowanie jest arbitralne i ukryte przed osobami, które odpowiedzą na pytanie.

Ale często ludzie są pytani (powiedzmy) w skali od 1 do 5, jak oceniasz coś? Przykładów jest wiele: strony internetowe, sport, inne rodzaje zawodów, a nawet edukacja. Tutaj pokazano ludziom skalę i poproszono o jej użycie. Powszechnie wiadomo, że liczby całkowite mają sens, ale wolno ci używać liczb całkowitych jako konwencji. Czy ta skala porządkowa? Niektórzy mówią tak, inni mówią nie. Innymi słowy, część problemu polega na tym, że sama skala porządkowa jest obszarem rozmytym lub dyskutowanym.

Rozważmy ponownie oceny z pracy akademickiej, powiedzmy od E do A. Często takie oceny są również traktowane liczbowo, powiedzmy od 1 do 5, i rutynowo ludzie obliczają średnie dla studentów, kursów, szkół itp. I przeprowadzają dalsze analizy takich danych. Chociaż prawdą jest, że wszelkie odwzorowanie na wyniki liczbowe jest arbitralne, ale dopuszczalne, o ile zachowuje porządek, niemniej w praktyce osoby przypisujące i otrzymujące oceny wiedzą, że oceny mają odpowiedniki liczbowe i wiedzą, że oceny zostaną uśrednione .

Jednym z pragmatycznych powodów użycia środków jest to, że mediany i tryby są często złymi podsumowaniami informacji w danych. Załóżmy, że masz skalę od zdecydowanie się nie zgadzam, aby zdecydowanie się zgodzić i dla wygody kodować te punkty od 1 do 5. Teraz wyobraź sobie jedną próbkę o kodach 1, 1, 2, 2, 2 i inną 1, 2, 2, 4, 5. Teraz podnieś twoje ręce, jeśli uważasz, że mediana i tryb są jedynymi uzasadnionymi podsumowaniami, ponieważ jest to skala porządkowa. Teraz podnieś ręce, jeśli uznasz, że środek jest również użyteczny, niezależnie od tego, czy kwoty są dobrze określone itp.

Oczywiście, średnia byłaby podsumowaniem z nadwrażliwością, gdyby kody były kwadratami lub sześcianami od 1 do 5, powiedzmy, i to może nie być to, czego chcesz. (Jeśli Twoim celem jest szybka identyfikacja wysokich poziomów, może być dokładnie tym, czego chcesz!) Ale właśnie dlatego konwencjonalne kodowanie z kolejnymi kodami całkowitymi jest praktycznym wyborem, ponieważ często działa całkiem dobrze w praktyce. Nie jest to argument, który nie ma żadnego znaczenia dla teoretyków pomiarów, nie powinien, ale analitycy danych powinni być zainteresowani tworzeniem bogatych w informacje podsumowań.

Zgadzam się z każdym, kto mówi: używaj całego rozkładu częstotliwości stopni, ale nie o to chodzi.

Nick Cox
źródło
1
Wielka odpowiedź i pragmatyzm są ważne, ale chciałbym dodać jedną uwagę. Dobrym powodem stosowania tylko formalnie ustalonych metod jest dostęp do oszacowań pewności ic. Na przykład, jeśli mamy dwa GPA, powiedzmy 4.53 i 4.34, możemy chcieć wiedzieć, czy jeden jest „znacznie” lepszy od drugiego. Ale z powodu braku formalności w uśrednianiu ocen, nie dostajemy takich rzeczy, jak przedziały ufności itp.
Stephen McAteer
1
@StephenMcAteer Widzę twój punkt widzenia w zakresie metod nauczanych w typowym tekście wprowadzającym lub kursie. Ale gdyby to było pragnienie, bootstrapowanie zapewniło technologię umożliwiającą przedziały ufności od prawie 40 lat.
Nick Cox
3

Załóżmy, że przyjmujemy wartości porządkowe, np. 1 dla zdecydowanie nie zgadzam się, 2 dla nie zgadzam się, 3 dla zgadzam się i 4 dla zdecydowanie zgadzam się. Jeśli cztery osoby udzielą odpowiedzi 1,2,3 i 4, co by to znaczyło? Jest to (1 + 2 + 3 + 4) /4=2,50.

Jak należy to interpretować, gdy średnia czteroosobowa odpowiedź brzmi „nie zgadzam się lub zgadzam”? Dlatego nie powinniśmy używać średnich dla danych porządkowych.

SAAN
źródło
3
Grając trochę w adwokata diabła, w tym przykładzie interpretowałbym 2.5 jako w połowie drogi między 2, „nie zgadzam się”, a 3, „zgadzam się”. Ma to sens jako średnia, biorąc pod uwagę, że „zdecydowanie się nie zgadzamy” vs. „zdecydowanie się zgadzam” i „nie zgadzamy się” z „zgadzam się”.
TooTone,
1
Zgadzam się ze średnią 2,5 w tym kontekście nadal ma dla mnie sens - w połowie drogi między nie zgadzam się i zgadzam, lub innymi słowy, neutralny.
luciano
3
Myślę, że Azeem potrzebuje silniejszego przykładu. Możesz sprzeciwić się wartości 2,5 jako średniej 1, 2, 3, 4 dzieci na rodzinę z tych samych powodów, jak to interpretować, ponieważ nie jest to jedna z określonych wartości. To rodzi różne problemy.
Nick Cox,
2
Myślę, że możesz wzmocnić swoją odpowiedź i zachęcam cię do tego. „ponieważ średnia może być wartością nieokreśloną” nie jest tutaj mocnym argumentem, logicznym ani psychologicznym, i nie koncentruje się na głębszym pytaniu, czy równe różnice rzeczywiście oznaczają równe różnice.
Nick Cox
1
Nie wiem, jak mogę to uczynić bardziej zrozumiałym, ale (np.) „0-4”, „5-19”, „20-114” są uporządkowane (porządkowe), ponieważ istnieje tylko jeden naturalny porządek dla tych pomiarów (brak odwrócenia). Jeśli chcesz nazwać je też innymi rzeczami, nie mam nic przeciwko.
Nick Cox
2

Całkowicie zgadzam się z @Azeem. Ale tylko po to, by doprowadzić ten punkt do domu, pozwolę sobie rozwinąć nieco więcej.

Załóżmy, że masz dane porządkowe jak w przykładzie z @Azeem, gdzie twoja skala waha się od 1 do 4. Powiedzmy też, że masz kilka osób oceniających coś (na przykład Lody) w tej skali. Wyobraź sobie, że otrzymujesz następujące wyniki:

  • Osoba A powiedziała 4
  • Osoba B powiedziała 3
  • Osoba C powiedziała 1
  • Osoba D powiedziała 2

Kiedy chcesz zinterpretować wyniki, możesz wyciągnąć wnioski w zakresie:

  • Osoba A lubiła lody bardziej niż osoba B.
  • Osoba D lubiła lody bardziej niż osoba C.

Jednak nie wiesz nic o odstępach między ocenami. Czy różnica między 1 a 2 jest taka sama jak między 3 a 4? Czy ocena 4 naprawdę oznacza, że ​​dana osoba lubi lody 4 razy bardziej niż osoba, która ocenia ją jako 1? I tak dalej ... Obliczając średnią arytmetyczną, traktujesz liczby tak, jakby różnice między nimi były równe. Ale to dość mocne założenie w przypadku danych porządkowych i musicie to uzasadnić.

Jens Kouros
źródło
Zredagowałem odniesienie do powyższej odpowiedzi. Odpowiedzi mogą zmienić kolejność, a odpowiedź, która była powyżej, znajduje się w tym momencie poniżej i to może się zmienić. Odnoś się więc do plakatów, a nie pozycji.
Nick Cox,
0

Zgadzam się z koncepcją, że średnia arytmetyczna nie może być naprawdę uzasadniona w danych w skali porządkowej. Zamiast obliczać średnią, możemy użyć trybu lub mediany w takich sytuacjach, co może dać nam bardziej sensowną interpretację naszych wyników.

ayaz
źródło
To nie dotyczy pytania, dlaczego może być nieodpowiednie.
Nick Cox