Ważysz system oceniania, aby faworyzować produkty ocenione wysoko przez większą liczbę osób niż produkty ocenione wysoko przez mniej osób?

9

Z góry dziękuję za kontakt ze mną, nie jestem żadnym statystykiem i nie wiem, jak opisać to, co sobie wyobrażam, więc Google mi tu nie pomaga ...

Dołączam system oceniania do aplikacji internetowej, nad którą pracuję. Każdy użytkownik może ocenić każdy element dokładnie raz.

Wyobraziłem sobie skalę z 4 wartościami: „zdecydowanie nie lubię”, „nie lubię”, „lubię” i „mocno lubię”, i planowałem przypisać te wartości odpowiednio -5, -2, +2 i +5 .

Teraz, jeśli każdy przedmiot miałby mieć taką samą liczbę ocen, to czułbym się dobrze z tym systemem punktacji, ponieważ wyraźnie odróżnia przedmioty najbardziej lubiane i najmniej lubiane. Jednak elementy nie będą miały takiej samej liczby ocen, a rozbieżność między liczbą głosów na różnych zdjęciach może być dość dramatyczna.

W takim przypadku porównanie skumulowanych wyników dla dwóch elementów oznacza, że ​​stary element z wieloma miernymi ocenami będzie miał znacznie wyższy wynik niż nowy wyjątkowy element z większą liczbą głosów.

Tak więc pierwszą oczywistą rzeczą, o której pomyślałem, byśmy wzięli średnią ... ale teraz, jeśli przedmiot ma tylko jedną ocenę „+5”, ma lepszą średnią niż pozycja, która ma ocenę 99 „+5” ocen oraz ocena 1 „+2”. Intuicyjnie nie jest to dokładne odzwierciedlenie popularności przedmiotu.

Wyobrażam sobie, że ten problem jest powszechny, a wy nie musicie przedstawiać go więcej przykładów, więc zatrzymam się w tym miejscu i w razie potrzeby rozwinę komentarz.

Moje pytania to:

  1. Jak nazywa się ten rodzaj problemu i czy istnieje termin na techniki stosowane do jego rozwiązania? Chciałbym to wiedzieć, aby móc o tym poczytać.
  2. Jeśli zdarzy ci się znać jakieś przyjazne dla świeckich zasoby na ten temat, bardzo doceniam link.
  3. Na koniec docenię wszelkie inne sugestie dotyczące skutecznego gromadzenia i analizowania tego rodzaju danych.
Andrzej
źródło

Odpowiedzi:

14

Jednym ze sposobów walki z tym jest użycie proporcji w każdej kategorii, co nie wymaga od ciebie wpisywania liczb dla każdej kategorii (możesz zostawić to jako 80% ocenione jako „bardzo lubi”). Jednak proporcje cierpią z powodu małej liczby ocen . To pokazuje w twoim przykładzie Zdjęcie z oceną 1 +5 uzyskałoby wyższy średni wynik (i proporcję) niż zdjęcie z oceną 99 +5 i 1 +2. To nie pasuje do mojej intuicji (i podejrzewam, że większość ludzi).

Jednym ze sposobów obejścia tego problemu z małą wielkością próby jest zastosowanie techniki bayesowskiej znanej jako „ reguła sukcesji Laplace'a ” (wyszukiwanie tego terminu może być przydatne). Polega ona po prostu na dodaniu 1 „obserwacji” do każdej kategorii przed obliczeniem prawdopodobieństw. Jeśli chcesz wziąć średnią dla wartości liczbowej, sugerowałbym średnią ważoną, gdzie wagi są prawdopodobieństwami obliczonymi na podstawie reguły sukcesji.

W przypadku postaci matematycznej niech oznaczają odpowiednio liczbę odpowiedzi „zdecydowanie nie lubię”, „nie lubię”, „lubię” i „zdecydowanie lubię” (w dwóch przykładach oraz ). Następnie obliczasz prawdopodobieństwo (lub wagę) dla silnie jak asnsd,nd,nl,nslnsl=1,nsd=nd=nl=0nsl=99,nl=1,nsd=nd=0

Pr("Strongly Like")=nsl+1nsd+nd+nl+nsl+4

W dwóch podanych przez ciebie przykładach podano prawdopodobieństwo „silnie lubię” jako i co moim zdaniem jest bardziej zgodne z „zdrowym rozsądkiem”. Usunięcie dodanych stałych daje i co sprawia, że ​​pierwszy wynik wydaje się wyższy niż powinien (przynajmniej dla mnie).1+11+0+0+0+4=2599+199+1+0+0+4=1001041199100

Odpowiednie wyniki podano właśnie na podstawie średniej ważonej, którą zapisałem poniżej jako:

Score=5nsl+1nsd+nd+nl+nsl+4+2nl+1nsd+nd+nl+nsl+42nd+1nsd+nd+nl+nsl+45nsd+1nsd+nd+nl+nsl+4

Lub bardziej zwięźle jak

Score=5nsl+2nl2nd5nsdnsd+nd+nl+nsl+4

Co daje wyniki w dwóch przykładach i . Myślę, że pokazuje to odpowiednią różnicę między tymi dwoma przypadkami.55=14971044.8

To może być trochę „matematyczne”, więc daj mi znać, jeśli potrzebujesz więcej wyjaśnień.

prawdopodobieństwo prawdopodobieństwa
źródło
To było dla mnie trochę „matematyczne” i początkowo nie zrozumiałem wzoru, ale przeczytałem go dokładnie trzy razy i kliknął! To jest dokładnie to, czego szukałem, a wyjaśnienie było bardzo jasne, nawet dla kogoś, kto nie matematyk lub statystyk w ogóle. Dziękuję Ci bardzo!
Andrew
2
Bardzo miła nietechniczna odpowiedź i podejście, o którym bym nie pomyślał. Dodałbym tylko, że do każdej kategorii można dodać dowolną liczbę fałszywych „obserwacji” zamiast 1, w tym liczby inne niż całkowite. Daje to swobodę decydowania o tym, jak bardzo chcesz „zmniejszyć” do zera wyniki przedmiotów za pomocą kilku głosów. A jeśli chcesz technicznie brzmiącego opisu tej metody, możesz powiedzieć, że przeprowadzasz bayesowską analizę danych z wielomianowej dystrybucji za pomocą wcześniej symetrycznego Dirichleta.
onestop
1
Choć mogą wydawać się „fałszywymi” obserwacjami, mają dobrze zdefiniowane znaczenie, gdy wynosi +1 (w przeciwieństwie do +2 lub wyższych, które tak naprawdę są „fałszywymi” liczbami lub liczbami z poprzedniego zbioru danych). To w zasadzie opisuje stan wiedzy, że jest to możliwe dla każdej kategorii należy głosowało za, przed do obserwacji żadnych danych. Właśnie to robi mieszkanie przed na simpleksie (N-1).
probabilityislogic
Jeszcze jedno spostrzeżenie dla przyszłych osób, które znajdą ten post: wdrażając to w moim modelu, wziąłem końcowy wynik i pomnożyłem go przez 20, co daje zakres od -100 do 100 od najgorszego do najlepszego możliwego wyniku (choć technicznie przypuszczam, że te są granice, których nigdy nie możesz osiągnąć, ale masz pomysł). To sprawia, że ​​dane wyjściowe dla użytkowników w mojej aplikacji są bardzo intuicyjne!
Andrew
@probabilityislogic: z pewnością jakieś ściśle dodatnie parametry wcześniejszego Dirichleta opisują, że wszystkie prawdopodobieństwa są ściśle od 0 do 1? Argument ten sugeruje ustawienie ich na 2 / m, gdzie m jest liczbą kategorii, a nie 1: en.wikipedia.org/wiki/…
onestop
2

Przyjąłbym podejście graficzne. Oś X może być średnią oceną, a y może być liczbą ocen. Robiłem to ze statystykami sportowymi, aby porównać udział młodych zjawisk z udziałem weteranów. Im bliżej jest punktu w prawym górnym rogu, tym bliżej ideału. Oczywiście decyzja o „najlepszym” elemencie nadal byłaby decyzją subiektywną, ale dałoby to pewną strukturę.

Jeśli chcesz wykreślić średnią ocenę z inną zmienną, możesz ustawić liczbę ocen jako trzecią zmienną, używając rozmiaru bąbelka, na wykresie bąbelkowym - np. W XL lub SAS.

rolando2
źródło