Jak znaleźć przedziały ufności dla ocen?

32

Jak nie sortować według średniej oceny ” Evana Millera proponuje użycie dolnej granicy przedziału ufności, aby uzyskać sensowny łączny „wynik” dla ocenianych pozycji. Działa jednak z modelem Bernoulli: oceny są albo kciuki w górę, albo kciuki w dół.

Jaki rozsądny przedział ufności należy zastosować dla modelu oceny, który przypisuje dyskretny wynik od do gwiazdek, przy założeniu, że liczba ocen dla elementu może być niewielka?1k

Myślę, że widzę, jak dostosować środek przedziałów Wilsona i Agresti-Coull jako

p~=i=1nxi+zα/22p0n+zα/22

gdzie lub (prawdopodobnie lepiej) jest to średnia ocena dla wszystkich przedmiotów. Nie jestem jednak pewien, jak dostosować szerokość interwału. Moje (poprawione) najlepsze przypuszczenie byłobyp0=k+12

p~±zα/2n~i=1n(xip~)2+zα/2(p0p~)2n~

z , ale nie mogę usprawiedliwić się jedynie machaniem ręką jako analogią Agresti-Coull, przyjmując to zan~=n+zα/22

Estimate(X¯)±zα/2n~Estimate(Var(X))

Czy obowiązują standardowe przedziały ufności? (Pamiętaj, że nie mam subskrypcji żadnych czasopism ani łatwego dostępu do biblioteki uniwersyteckiej; pod każdym względem podaj odpowiednie odniesienia, ale proszę uzupełnij o rzeczywisty wynik!)

Peter Taylor
źródło
4
Ponieważ obecne odpowiedzi (być może z grzeczności) omijają ten problem, chciałbym zauważyć, że ta aplikacja jest strasznym nadużyciem granic zaufania. Nie ma teoretycznego uzasadnienia dla używania LCL do rangowania średnich (i wiele powodów, dla których LCL jest faktycznie gorszy niż sama średnia do celów rankingowych). Pytanie to opiera się zatem na błędnym podejściu i być może dlatego przyciąga stosunkowo mało uwagi.
whuber
2
Miłą cechą tego konkretnego pytania jest to, że zawiera wystarczający kontekst, abyśmy mogli zignorować rzeczywiste pytanie i skupić się na tym, co wydawało się ważniejsze.
Karl
1
Cieszę się, że zmieniłeś zmieniony tytuł według własnych upodobań, Peter. Moja oryginalna edycja została stworzona nie po to, by była samolubna, ale by tytuł odzwierciedlał tekst pytania. Jesteś ostatecznym arbitrem tego, co naprawdę masz na myśli.
whuber

Odpowiedzi:

23

Jak powiedział Karl Broman w swojej odpowiedzi, podejście bayesowskie byłoby prawdopodobnie znacznie lepsze niż stosowanie przedziałów ufności.

Problem z przedziałami ufności

Dlaczego stosowanie przedziałów ufności może nie działać zbyt dobrze? Jednym z powodów jest to, że jeśli nie masz wielu ocen przedmiotu, przedział ufności będzie bardzo szeroki, więc dolna granica przedziału ufności będzie niewielka. W związku z tym elementy bez wielu ocen znajdą się na dole listy.

Intuicyjnie jednak prawdopodobnie chcesz, aby przedmioty bez wielu ocen znajdowały się w pobliżu przeciętnego przedmiotu, więc chcesz przesunąć swoją szacunkową ocenę przedmiotu w stronę średniej oceny nad wszystkimi przedmiotami (tj. Chcesz przesunąć swoją szacunkową ocenę w kierunku wcześniejszego ) . To właśnie robi podejście bayesowskie.

Podejście Bayesa I: rozkład normalny w stosunku do ocen

Jednym ze sposobów przesunięcia oceny szacunkowej w stronę a priori jest, jak w odpowiedzi Karla, użycie oszacowania postaci :wR+(1w)C

  • R to średnia ponad ocen dla przedmiotów.
  • C oznacza średnią dla wszystkich pozycji (lub cokolwiek wcześniej, do którego chcesz zmniejszyć swoją ocenę).
  • Należy zauważyć, że wzór jest tylko ważone połączenie i .RC
  • w=vv+m to waga przypisana do , gdzie to liczba recenzji piwa, a to pewnego rodzaju stały parametr „progowy”.Rvm
  • Zauważ, że gdy jest bardzo duża, to znaczy, gdy mamy dużo ocen dla bieżącego elementu, a następnie jest bardzo zbliżona do 1, więc nasz szacunkowa ocena jest bardzo zbliżony do i płacimy mało uwagi do wcześniejszej . Gdy jest niewielka, jednak jest bardzo zbliżony do 0, więc szacowana ocena kładzie dużo masy na uprzedniej .vwRCvwC

Oszacowanie to można w rzeczywistości interpretować bayesowską jako późniejszą ocenę średniej oceny przedmiotu, gdy poszczególne oceny pochodzą z normalnego rozkładu skupionego wokół tej średniej.

Jednak przy założeniu, że oceny pochodzą z rozkładu normalnego, występują dwa problemy:

  • Rozkład normalny jest ciągły , ale oceny są dyskretne .
  • Oceny produktu niekoniecznie muszą mieć niejednoznaczny kształt Gaussa. Na przykład, może twój przedmiot jest bardzo polaryzujący, więc ludzie albo oceniają go bardzo wysoko, albo bardzo słabo.

Podejście Bayesa II: rozkład wielomianowy ponad oceny

Zamiast więc zakładać normalny rozkład ocen, załóżmy rozkład wielomianowy . To znaczy, biorąc pod uwagę jakiś konkretny przedmiot, istnieje prawdopodobieństwo że losowy użytkownik da mu 1 gwiazdkę, prawdopodobieństwo że losowy użytkownik da mu 2 gwiazdki i tak dalej.p 2p1p2

Oczywiście nie mamy pojęcia, jakie są te prawdopodobieństwa. W miarę uzyskiwania coraz większej liczby ocen tego elementu możemy zgadywać, że jest zbliżony do , gdzie to liczba użytkowników, którzy przyznali mu 1 gwiazdkę, a to całkowita liczba użytkowników, którzy ocenili przedmiot, ale kiedy zaczynamy od początku, nie mamy nic. Dlatego umieszczamy Dirichlet przed na tych prawdopodobieństwach.n 1p1 n1nDir(α1,,αk)n1nn1n Dir(α1,,αk)

Czym jest ten Dirichlet wcześniej? Możemy myśleć o każdym parametr jako bycie „wirtualny count” od tego, ile razy człowiek dał jakiś wirtualny przedmiot gwiazd. Na przykład, jeśli , , a wszystkie pozostałe są równe 0, to możemy myśleć o tym, mówiąc, że dwie wirtualne osoby dały 1 gwiazdkę, a jedna wirtualna osoba dała 2 gwiazdy. Tak więc, zanim pozyskamy rzeczywistych użytkowników, możemy użyć tej wirtualnej dystrybucji, aby oszacować ocenę produktu. i α 1 = 2 α 2 = 1 α iαiiα1=2α2=1αi

[Jednym ze sposobów wyboru parametrów byłoby ustawienie równego ogólnej proporcji głosów w gwiazdkach . (Zauważ, że parametry są liczbami całkowitymi.)]α i i α iαiαiiαi

Następnie, gdy pojawią się rzeczywiste oceny, po prostu dodaj ich liczby do wirtualnej liczby swoich Dirichlet wcześniej. Ilekroć chcesz oszacować ocenę swojego przedmiotu, po prostu weź średnią wszystkich ocen przedmiotu (zarówno jego ocen wirtualnych, jak i rzeczywistych).

raegtin
źródło
1
Podejście 2 działa tak samo jak podejście 1, prawda, ale z innym uzasadnieniem?
Peter Taylor,
2
@Peter: oh, prawda! Nie zdawałem sobie z tego sprawy, dopóki o tym nie wspomniałeś =). (Jeśli wszystko, co chcesz zrobić, to wziąć środek z tyłu, są one identyczne. Wydaje mi się, że posiadanie Dirichleta z tyłu może być przydatne, jeśli chcesz obliczyć inny rodzaj wyniku, np. Pewien rodzaj polaryzacji, chociaż to może być trochę rzadkie.)
raegtin
1
W podejściu 1, jak zazwyczaj wybierasz ? m
Jason C
15

Ta sytuacja wymaga podejścia bayesowskiego. Istnieją tutaj proste podejścia do rankingów bayesowskich ocen tutaj (zwracając szczególną uwagę na komentarze, które są interesujące) i tutaj , a następnie dalszy komentarz na ich temat tutaj . Jak wskazuje jeden z komentarzy w pierwszym z tych linków:

Best of BeerAdvocate (BA) ... wykorzystuje szacunek bayesowski:

ważona pozycja (WR) = (v / (v + m)) × R + (m / (v + m)) × C

gdzie:
R = średnia recenzja dla piwa
v = liczba recenzji dla piwa
m = minimum recenzji wymaganych do umieszczenia na liście (obecnie 10)
C = średnia na liście (obecnie 2,5)

Karl
źródło
2
Wadą metody Beer Advocate jest to, że nie uwzględnia ona zmienności. Niemniej jednak wolę tę myślenie niż ideę dolnej granicy kondycji.
Karl