Jeśli dobrze rozumiem, oceny książek w skali 1-5 to wyniki Likerta. Oznacza to, że 3 dla mnie niekoniecznie musi być 3 dla kogoś innego. To IMO w skali porządkowej. Tak naprawdę nie należy uśredniać skal porządkowych, ale zdecydowanie można wybrać tryb, medianę i percentyle.
Czy więc „w porządku” jest naginanie zasad, ponieważ duża część populacji rozumie środki niż powyższe statystyki? Chociaż społeczność naukowa zdecydowanie upomina się o uśrednianie danych opartych na skali Likerta, czy dobrze jest robić to z masami (praktycznie mówiąc)? Czy wzięcie średniej w tym przypadku jest nawet mylące na początek?
Wydaje się mało prawdopodobne, aby firma taka jak Amazon zajmowała się podstawowymi statystykami, ale jeśli nie, to czego tu brakuje? Czy możemy twierdzić, że skala porządkowa jest wygodnym przybliżeniem liczby porządkowej w celu uzasadnienia przyjęcia średniej? Na jakiej podstawie?
źródło
Odpowiedzi:
Korzyści ze stosowania średniej do podsumowania tendencji centralnej oceny 5-punktowej
Jak wspomniał @gung, myślę, że często istnieją bardzo dobre powody, aby przyjmować średnią z pięciu punktów za wskaźnik tendencji centralnej. Przedstawiłem już tutaj te powody .
Parafrazować:
Dlaczego środek jest dobry dla Amazon
Pomyśl o celach Amazon w raportowaniu średniej. Mogą mieć na celu
Amazon zapewnia pewnego rodzaju zaokrągloną średnią, liczbę częstotliwości dla każdej opcji oceny oraz wielkość próby (tj. Liczbę ocen). Informacje te prawdopodobnie wystarczą, aby większość ludzi doceniła zarówno ogólne sentymenty do przedmiotu, jak i zaufanie do takiej oceny (tj. 4.5 z 20 ocenami jest bardziej prawdopodobne niż dokładność 4.5 z 2 ocenami; pozycja z 10 5 - oceny w gwiazdkach i jedna ocena w postaci 1 gwiazdki bez komentarzy mogą nadal być dobrym przedmiotem).
Możesz nawet postrzegać ten środek jako opcję demokratyczną. Wiele wyborów jest wybieranych na podstawie tego, który kandydat otrzymuje najwyższą średnią w skali dwupunktowej. Podobnie, jeśli weźmiesz argument, że każda osoba, która prześle recenzję, otrzyma głos, możesz zobaczyć środek jako formularz, który waży głos każdej osoby jednakowo.
Czy różnice w stosowaniu skali naprawdę stanowią problem?
W literaturze psychologicznej istnieje szeroki zakres uprzedzeń ratingowych (przegląd, patrz Saal i in. 1980), takich jak tendencyjność tendencji centralnej, łagodność łagodności, uprzedzenie surowości. Ponadto niektórzy oceniający będą bardziej arbitralni, a niektórzy bardziej wiarygodni. Niektórzy mogą nawet systematycznie kłamać, dając fałszywe pozytywne lub fałszywe negatywne recenzje. Spowoduje to powstanie różnych form błędu podczas próby obliczenia prawdziwej średniej oceny elementu.
Jeśli jednak pobrałbyś losową próbkę populacji, takie uprzedzenia by się zlikwidowały, a przy wystarczającej wielkości próby liczników nadal uzyskałbyś prawdziwą średnią.
Oczywiście, nie dostajesz losowej próbki na Amazon, i istnieje ryzyko, że konkretny zestaw wskaźników, które otrzymujesz za przedmiot, jest systematycznie tendencyjny, aby być bardziej łagodny lub surowy i tak dalej. To powiedziawszy, myślę, że użytkownicy Amazon doceniliby, że oceny przesłane przez użytkowników pochodzą z niedoskonałej próbki. Myślę również, że jest całkiem prawdopodobne, że przy rozsądnej wielkości próby, w wielu przypadkach większość różnic odchylenia odpowiedzi zacznie zanikać.
Możliwe postępy przekraczające średnią
Jeśli chodzi o poprawę dokładności oceny, nie kwestionowałbym ogólnej koncepcji średniej, ale raczej sądzę, że istnieją inne sposoby oszacowania prawdziwej średniej oceny populacji dla pozycji (tj. Średniej oceny, którą można uzyskać byli dużą reprezentatywną próbą proszoną o ocenę produktu).
Tak więc, jeśli dokładność oceny była głównym celem Amazon, myślę, że powinien postarać się zwiększyć liczbę ocen na przedmiot i zastosować niektóre z powyższych strategii. Takie podejście może być szczególnie istotne przy tworzeniu rankingów „najlepszych z”. Jednak w przypadku skromnej oceny na stronie może się okazać, że próbka oznacza, że lepiej spełnia cele prostoty i przejrzystości.
Bibliografia
źródło
Aby być nieco technicznym, te oceny nie są w rzeczywistości skalą Likerta ; są to zwykłe oceny. Powiedziawszy to, twój punkt widzenia jest zasadniczo poprawny. Jednak często myślę, że zbyt wiele się robi z tego problemu. Należy zauważyć, że zwykle rozumie się, że średnia z liczby elementów porządkowych może być w przybliżeniu odstępem, a zatem, gdy istnieje wiele ocen, średnia staje się bardziej rozsądną reprezentacją. Uważam, że odpowiedź @JeromyAnglim jest doskonała (naprawdę, pytanie i wszystkie towarzyszące odpowiedzi są warte przeczytania). Aby uzyskać bardziej teoretyczne leczenie, zobacz tutaj. Z drugiej strony podoba mi się Amazon, ale nie widzę powodu, by oczekiwać od nich wyrafinowania statystycznego, szczególnie w zakresie podstawowego projektu strony - chodzi o użyteczność dla konsumentów, a nie imponowanie profesorom statystyk.
źródło
Wszyscy mają na ten temat dobre opinie. Nie sądzę, żebym mógł dodać znacznie więcej. Jednak opublikuję to :
źródło
Z mojego doświadczenia wynika, że średnia danych w skali ocen jest często najściślej skorelowana z poziomem rzeczywistych wskaźników, które staramy się powiązać ze skalą oceny. Znaleźliśmy wiele zależności liniowych, dlatego też średnia jest jednym z lepszych sposobów podsumowania danych. To powiedziawszy, jak zauważył Jeromy, większość sposobów analizy centralnej tendencji skali ratingowej daje podobne wyniki (porządki rang itp.) Przez większość czasu.
Podejrzewam też, że Amazon prawdopodobnie nie interesuje się naukową wiarygodnością w ten czy inny sposób. Ostatecznie celem Amazon jest skłonienie ludzi do kupowania większej ilości produktów na Amazon.com, a sposób, w jaki opinie pomagają to osiągnąć, prawdopodobnie nie będzie różnił się w zależności od użytego podsumowania z jedną liczbą. Dobre produkty zostaną nagrodzone, naprawdę złe produkty ukarane, a nerwowi nabywcy będą mieli okazję bardziej szczegółowo przeanalizować zalety i wady.
źródło
Oceny Amazon są mylące, ponieważ firmy grają w system. Kiedy klientom oferowane są rabaty i darmowe towary w zamian za recenzje 5-gwiazdkowe, „statystyki” tego, co oznacza lub oznacza numer oceny, stają się dyskusyjne.
źródło
Masz rację. Przyjmowanie średniej liczb porządkowych jest nieco mylące. Każde podsumowanie kilku rankingów ucierpiałoby z tego powodu, że moje subiektywne 3 mogą naprawdę równać się z twoim 4. Tak więc łączenie różnych indywidualnych wyników jest prawdopodobnie największym problemem. Interpretacja średniej 3 i 4 jako 3,5 nie jest aż tak rażąca.
źródło