Czy „średnia ocena” Amazon jest myląca?

49

Jeśli dobrze rozumiem, oceny książek w skali 1-5 to wyniki Likerta. Oznacza to, że 3 dla mnie niekoniecznie musi być 3 dla kogoś innego. To IMO w skali porządkowej. Tak naprawdę nie należy uśredniać skal porządkowych, ale zdecydowanie można wybrać tryb, medianę i percentyle.

Czy więc „w porządku” jest naginanie zasad, ponieważ duża część populacji rozumie środki niż powyższe statystyki? Chociaż społeczność naukowa zdecydowanie upomina się o uśrednianie danych opartych na skali Likerta, czy dobrze jest robić to z masami (praktycznie mówiąc)? Czy wzięcie średniej w tym przypadku jest nawet mylące na początek?

Wydaje się mało prawdopodobne, aby firma taka jak Amazon zajmowała się podstawowymi statystykami, ale jeśli nie, to czego tu brakuje? Czy możemy twierdzić, że skala porządkowa jest wygodnym przybliżeniem liczby porządkowej w celu uzasadnienia przyjęcia średniej? Na jakiej podstawie?

Doktorat
źródło
3
Jeśli 3 dla ciebie nie jest tym samym co 3 dla kogoś innego, to nie masz nawet skali: masz kolekcję nieporównywalnych pomiarów i niewiele możesz zrobić, aby je podsumować. To, co czyni liczbę porządkową skalą, polega na tym, że (a) wartości można porównać, więc twoje 3 i moje 3 oznaczają to samo, ale (b) różnice liczbowe wartości są bez znaczenia poza ich znakami, więc (powiedzmy) dwie 3, a 4 i 2, lub 5 i 1 można ułożyć w dowolnej kolejności, chociaż liczbowo każda para ocen ma tę samą średnią i medianę.
whuber
1
@ Whuber - ale czy nie jest prawdą, że 2 osoby mogą nie podzielać tej samej opinii na temat liczb w skali 1-9? 6 dla mnie rzeczywiście może nie być 6 dla kogoś innego, chyba że mają wcześniej zdefiniowaną skalę do przejścia?
dr
1
Niedawno przeczytałem jedną recenzję na Amazon, która mówi: „Genialny produkt nie może tego winić. Nigdy nie dałbym 5 gwiazdek, więc nagrodziłem 4”. Jeśli to nie przekręca średniej, to nie wiem, że tak
Matt Wilko
2
@Wilko Mówisz o różnicach zdań, a nie różnicach skali. Nawet gdy skala jest bardzo dokładnie skalibrowana, tak jak w (powiedzmy) punktacji dla gimnastyki lub łyżwiarstwa figurowego lub skali międzynarodowej dla oceny trudności bystrzycy na rzekach, a nawet gdy eksperci są przeszkoleni do korzystania z tej skali, nadal będzie istniała zmienność. Zwykle nie jest to interpretowane jako dowód, że skala jest subiektywna: jest interpretowana jako zróżnicowanie między sędziami.
whuber
1
Niestety, to nie jest tak naprawdę odpowiedź, ale niestety nie mogłem znaleźć funkcji „komentowania”. Ostatnio zacząłem pisać moją pracę magisterską na temat kluczowych elementów recenzji klientów. Biorąc pod uwagę następujące okoliczności, zacząłem wątpić w znaczenie 5-gwiazdkowego systemu oceny Amazon. - Liczba nieufnych recenzji - Skutki stronniczości ocen i krzywych J ( buildingreputation.com/writings/2009
derPio

Odpowiedzi:

42

Korzyści ze stosowania średniej do podsumowania tendencji centralnej oceny 5-punktowej

Jak wspomniał @gung, myślę, że często istnieją bardzo dobre powody, aby przyjmować średnią z pięciu punktów za wskaźnik tendencji centralnej. Przedstawiłem już tutaj te powody .

Parafrazować:

  1. średnia jest łatwa do obliczenia
  2. Średnia jest intuicyjna i dobrze zrozumiała
  3. Średnia to pojedyncza liczba
  4. Inne indeksy często dają podobne uporządkowanie rang obiektów

Dlaczego środek jest dobry dla Amazon

Pomyśl o celach Amazon w raportowaniu średniej. Mogą mieć na celu

  • zapewniają intuicyjną i zrozumiałą ocenę produktu
  • zapewnić akceptację systemu ocen przez użytkownika
  • upewnij się, że ludzie rozumieją, co oznacza ocena, aby mogli ją odpowiednio wykorzystać do podejmowania decyzji o zakupie

Amazon zapewnia pewnego rodzaju zaokrągloną średnią, liczbę częstotliwości dla każdej opcji oceny oraz wielkość próby (tj. Liczbę ocen). Informacje te prawdopodobnie wystarczą, aby większość ludzi doceniła zarówno ogólne sentymenty do przedmiotu, jak i zaufanie do takiej oceny (tj. 4.5 z 20 ocenami jest bardziej prawdopodobne niż dokładność 4.5 z 2 ocenami; pozycja z 10 5 - oceny w gwiazdkach i jedna ocena w postaci 1 gwiazdki bez komentarzy mogą nadal być dobrym przedmiotem).

Możesz nawet postrzegać ten środek jako opcję demokratyczną. Wiele wyborów jest wybieranych na podstawie tego, który kandydat otrzymuje najwyższą średnią w skali dwupunktowej. Podobnie, jeśli weźmiesz argument, że każda osoba, która prześle recenzję, otrzyma głos, możesz zobaczyć środek jako formularz, który waży głos każdej osoby jednakowo.

Czy różnice w stosowaniu skali naprawdę stanowią problem?

W literaturze psychologicznej istnieje szeroki zakres uprzedzeń ratingowych (przegląd, patrz Saal i in. 1980), takich jak tendencyjność tendencji centralnej, łagodność łagodności, uprzedzenie surowości. Ponadto niektórzy oceniający będą bardziej arbitralni, a niektórzy bardziej wiarygodni. Niektórzy mogą nawet systematycznie kłamać, dając fałszywe pozytywne lub fałszywe negatywne recenzje. Spowoduje to powstanie różnych form błędu podczas próby obliczenia prawdziwej średniej oceny elementu.

Jeśli jednak pobrałbyś losową próbkę populacji, takie uprzedzenia by się zlikwidowały, a przy wystarczającej wielkości próby liczników nadal uzyskałbyś prawdziwą średnią.

Oczywiście, nie dostajesz losowej próbki na Amazon, i istnieje ryzyko, że konkretny zestaw wskaźników, które otrzymujesz za przedmiot, jest systematycznie tendencyjny, aby być bardziej łagodny lub surowy i tak dalej. To powiedziawszy, myślę, że użytkownicy Amazon doceniliby, że oceny przesłane przez użytkowników pochodzą z niedoskonałej próbki. Myślę również, że jest całkiem prawdopodobne, że przy rozsądnej wielkości próby, w wielu przypadkach większość różnic odchylenia odpowiedzi zacznie zanikać.

Możliwe postępy przekraczające średnią

Jeśli chodzi o poprawę dokładności oceny, nie kwestionowałbym ogólnej koncepcji średniej, ale raczej sądzę, że istnieją inne sposoby oszacowania prawdziwej średniej oceny populacji dla pozycji (tj. Średniej oceny, którą można uzyskać byli dużą reprezentatywną próbą proszoną o ocenę produktu).

  • Mierniki masy oparte na ich wiarygodności
  • Użyj bayesowskiego systemu ocen, który szacuje średnią ocenę jako ważoną sumę średniej oceny dla wszystkich pozycji i średniej z określonej pozycji, i zwiększaj wagę dla określonej pozycji wraz ze wzrostem liczby ocen
  • Dostosuj informacje oceniającego w oparciu o ogólną tendencję do oceniania różnych przedmiotów (np. 5 od kogoś, kto zazwyczaj daje 3s, będzie warte więcej niż ktoś, kto zazwyczaj daje 4s).

Tak więc, jeśli dokładność oceny była głównym celem Amazon, myślę, że powinien postarać się zwiększyć liczbę ocen na przedmiot i zastosować niektóre z powyższych strategii. Takie podejście może być szczególnie istotne przy tworzeniu rankingów „najlepszych z”. Jednak w przypadku skromnej oceny na stronie może się okazać, że próbka oznacza, że ​​lepiej spełnia cele prostoty i przejrzystości.

Bibliografia

  • Saal, FE, Downey, RG i Lahey, MA (1980). Ocena ocen: Ocena psychometrycznej jakości danych ratingowych. Biuletyn psychologiczny, 88, 413.
Jeromy Anglim
źródło
1
+1. Myślę, że to wykracza poza / rozszerza twoją poprzednią odpowiedź w bardzo przyjemny sposób. Szczególnie podoba mi się sekcja „dlaczego środek jest dobry dla Amazonii”, która bardziej precyzyjnie wymienia to, o czym starałem się w ostatnim zdaniu. „Różne zastosowania skali” są również dość wnikliwe; Byłbym wdzięczny za cytowanie recenzji tej literatury, jeśli znasz dobrą. Zauważam jednak, że ostatni odcinek jest nieco napięty w / w drugim.
gung - Przywróć Monikę
2
Dzięki. Dodałem odniesienie do literatury dotyczącej tendencyjności ratingowej i na końcu dodałem coś, co próbuje pogodzić te dwie perspektywy.
Jeromy Anglim
2
+1 @JeromyAnglim - dokładna perspektywa rzucająca światło na różne aspekty problemu. Sława!
dr
+1, świetna odpowiedź. Chociaż jedno zdanie uznałem za nieco mylące. Kiedy powiedziałeś: „Jednak gdybyś pobrał losową próbkę populacji, takie uprzedzenia by się zlikwidowały, a przy wystarczającej wielkości próby wskaźników, nadal uzyskałbyś prawdziwą średnią”. - Nie sądzę, że dotyczy to wszystkich stronniczości, nawet jeśli masz losową próbę populacji.
Michael Bishop
1
@MichaelBishop Dzięki, zgadzam się, że mój język był tam trochę niechlujny. Myślę, że to zależy od tego, co rozumie się przez „prawdziwy środek”. Widzę, jak jeśli masz oszustów w populacji, może to zniechęcić nieskorygowaną populację z dala od hipotetycznego „prawdziwego środka”. Myślałem bardziej, że wszelkie systematyczne uprzedzenia osób, które odnoszą się do wszystkich przedmiotów, zostaną anulowane, aby umożliwić bezstronne uporządkowanie pozycji na podstawie uzyskanej średniej.
Jeromy Anglim
15

Aby być nieco technicznym, te oceny nie są w rzeczywistości skalą Likerta ; są to zwykłe oceny. Powiedziawszy to, twój punkt widzenia jest zasadniczo poprawny. Jednak często myślę, że zbyt wiele się robi z tego problemu. Należy zauważyć, że zwykle rozumie się, że średnia z liczby elementów porządkowych może być w przybliżeniu odstępem, a zatem, gdy istnieje wiele ocen, średnia staje się bardziej rozsądną reprezentacją. Uważam, że odpowiedź @JeromyAnglim jest doskonała (naprawdę, pytanie i wszystkie towarzyszące odpowiedzi są warte przeczytania). Aby uzyskać bardziej teoretyczne leczenie, zobacz tutaj. Z drugiej strony podoba mi się Amazon, ale nie widzę powodu, by oczekiwać od nich wyrafinowania statystycznego, szczególnie w zakresie podstawowego projektu strony - chodzi o użyteczność dla konsumentów, a nie imponowanie profesorom statystyk.

gung - Przywróć Monikę
źródło
2
Amazon jest jednym z liderów w branży technologii (internetowej) w zakresie eksperymentalnego projektowania reklam internetowych i korzystania z witryn internetowych. Możesz być pewien, że w rzeczywistości dość wyrafinowani w swoich podejściach statystycznych. :-) Twój punkt widzenia jest dobry. Czyniąc to jeszcze o krok dalej, możesz sobie wyobrazić, że Amazon robi coś „bardziej wyrafinowanego”, a ktoś sprawdza je, używając prostej średniej, i stwierdził, że niektóre pozycje były „wyżej” niż ich średnia, a inne „niższe”, podnosząc zamieszanie i pozostawienie Amazonowi próby wyjaśnienia ich „ukrytych stronniczości” dotyczących produktów?
kardynał
1
Inne usługi, np. Netflix, unikają tego problemu, dostarczając jedynie dane „podsumowujące”. :)
kardynał
@ cardinal, to bardzo interesujące, nie wiedziałem tego o Amazon.
gung - Przywróć Monikę
15

Wszyscy mają na ten temat dobre opinie. Nie sądzę, żebym mógł dodać znacznie więcej. Jednak opublikuję to :

inspectorG4dget
źródło
7
Myślę, że komiks podkreśla, że ​​niektórzy ludzie źle oceniają jakość przedmiotu, a uśredniając liczbę takich osób, otrzymujesz niską średnią. Ogólnie rzecz biorąc, mądrość tłumu sugeruje, że średnie wyniki są dość dobre, gdy przynajmniej rozsądna część ludzi ma pewną wiedzę. Ważenie ocen według wiarygodności może być również jedną ze strategii przezwyciężania problemów.
Jeromy Anglim
1
Inną opcją jest stosowanie rekomendacji w stylu Netflix, poprzez porównanie oceny z ocenami innych użytkowników, a następnie uśrednienie ocen oferowanych przez użytkowników o podobnych wyborach jak Ty.
rahul
1
@rahul To dobra uwaga. W mojej odpowiedzi czasami zakładam, że oceny są w dużej mierze prawdziwym wynikiem + błąd, nawet jeśli istnieje struktura błędu. Ale jeśli chodzi o domeny, w których osobiste preferencje są częścią definicji jakości, nie zawsze ma to taki sens.
Jeromy Anglim
Podoba mi się i dlatego (jako konsument) staram się czytać recenzje, a nie tylko liczbę gwiazd. Ale pomyślałem, że to ironia losu, że w tym przypadku bardziej „wyrafinowane” metody mediany, trybu i percentyli dają gorszy wynik niż średnia ;-)
Darren Cook
3

Z mojego doświadczenia wynika, że ​​średnia danych w skali ocen jest często najściślej skorelowana z poziomem rzeczywistych wskaźników, które staramy się powiązać ze skalą oceny. Znaleźliśmy wiele zależności liniowych, dlatego też średnia jest jednym z lepszych sposobów podsumowania danych. To powiedziawszy, jak zauważył Jeromy, większość sposobów analizy centralnej tendencji skali ratingowej daje podobne wyniki (porządki rang itp.) Przez większość czasu.

Podejrzewam też, że Amazon prawdopodobnie nie interesuje się naukową wiarygodnością w ten czy inny sposób. Ostatecznie celem Amazon jest skłonienie ludzi do kupowania większej ilości produktów na Amazon.com, a sposób, w jaki opinie pomagają to osiągnąć, prawdopodobnie nie będzie różnił się w zależności od użytego podsumowania z jedną liczbą. Dobre produkty zostaną nagrodzone, naprawdę złe produkty ukarane, a nerwowi nabywcy będą mieli okazję bardziej szczegółowo przeanalizować zalety i wady.

Jonathan
źródło
2

Oceny Amazon są mylące, ponieważ firmy grają w system. Kiedy klientom oferowane są rabaty i darmowe towary w zamian za recenzje 5-gwiazdkowe, „statystyki” tego, co oznacza lub oznacza numer oceny, stają się dyskusyjne.

Jan
źródło
1
Czy masz jakieś dane dotyczące tego, jak często takie rzeczy się zdarzają?
Michael Bishop,
1

Masz rację. Przyjmowanie średniej liczb porządkowych jest nieco mylące. Każde podsumowanie kilku rankingów ucierpiałoby z tego powodu, że moje subiektywne 3 mogą naprawdę równać się z twoim 4. Tak więc łączenie różnych indywidualnych wyników jest prawdopodobnie największym problemem. Interpretacja średniej 3 i 4 jako 3,5 nie jest aż tak rażąca.

Michael Chernick
źródło