Jeśli mam system oceny gwiazdek, w którym użytkownicy mogą wyrazić swoje preferencje dotyczące produktu lub przedmiotu, w jaki sposób mogę wykryć statystycznie, czy głosy są wysoce „podzielone”. Oznacza to, że nawet jeśli średnia wynosi 3 z 5 dla danego produktu, jak mogę wykryć, czy jest to podział 1-5 względem konsensusu 3, używając tylko danych (bez metod graficznych)
variance
average
dispersion
David Williams
źródło
źródło
Odpowiedzi:
Można skonstruować wskaźnik polaryzacji; to, jak dokładnie to zdefiniujemy, zależy od tego, co oznacza bycie bardziej spolaryzowanym (tj. co dokładnie masz na myśli, w szczególnych przypadkach brzegowych, przez mniej lub bardziej spolaryzowaną?):
Na przykład, jeśli średnia to „4”, czy podział 50–50 między „3” i „5” jest większy, czy mniej spolaryzowany niż 25% „1” i 75% „5”?
W każdym razie, przy braku takiej konkretnej definicji tego, co masz na myśli, zasugeruję miarę opartą na wariancji:
Biorąc pod uwagę konkretną średnią, zdefiniuj najbardziej spolaryzowany możliwy podział jako ten, który maksymalizuje wariancję *.
* (Uwaga: powiedziałoby to, że 25% „1” i 75% „5” jest znacznie bardziej spolaryzowane niż 50-50 podział „3” i „5”; jeśli to nie pasuje do twojej intuicji, nie używaj wariancji)
Zatem ten wskaźnik polaryzacji jest proporcją największej możliwej wariancji ( z obserwowaną średnią ) w obserwowanej wariancji.
Nazwij średnią ocenę ( m = ˉ x ).m m=x¯
Maksymalna wariancja występuje, gdy proporcja oznacza5,a1-pwynosi1; ma to wariancję (m-1)(5-m)⋅np=m−14 5 1−p 1 .(m−1)(5−m)⋅nn−1
Wystarczy więc pobrać wariancję próbki i podzielić przez ; daje to liczbę od0(idealna zgodność) do1(całkowicie spolaryzowane).(m−1)(5−m)⋅nn−1 0 1
W wielu przypadkach, w których średnia ocena wynosi 4, dałoby to:
Zamiast tego możesz raczej nie obliczać ich w odniesieniu do największej możliwej wariancji z tą samą średnią, ale zamiast tego jako procent największej możliwej wariancji dla dowolnej średniej oceny . Oznaczałoby to podzielenie zamiast4⋅nn−1 1
Każda z tych dwóch opcji jest całkowicie poprawnym wyborem - podobnie jak każda inna liczba alternatywnych sposobów konstruowania takiego indeksu.
źródło
m = 1
dostaniesz1 - 1 = 0
i0 / 0
. Jak to naprawisz?„Brak metod graficznych” jest rodzajem dużego upośledzenia, ale ... oto kilka dziwnych pomysłów. Obie traktują oceny jako ciągłe, co jest słabością konceptualną i prawdopodobnie nie jedyną ...
Kurtosis
Ujemna regresja dwumianowa
FWIW, oto kod r , z którym bawiłem się:
Nie mogę się oprzeć rzuceniu spisku ...
Edycja: Właśnie zobaczyłem to pytanie reklamowane na pasku bocznym: a kiedy kliknąłem, zobaczyłem je w „Hot Network Questions” odsyłającym do siebie, jak to czasami bywa ,
więc pomyślałem, że może to zasługiwać na wizytę w bardziej ogólnie przydatny sposób. Postanowiłem wypróbować moje metody w recenzjach klientów Amazon dotyczących koszulki z krótkim rękawem The Mountain Three Wolf Moon :
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))
źródło
źródło
Wątpię, czy mogę dodać coś cennego do podanych wcześniej sprytnych odpowiedzi. W szczególności dobry pomysł @ Glen_b, aby ocenić, w jaki sposób zaobserwowana wariancja jest względnie zbliżona do maksymalnej możliwej wariancji przy obserwowanej średniej. Moja własna, tępa i prosta propozycja ramienia, dotyczy natomiast pewnej solidnej miary dyspersji opartej nie na odchyleniach od jakiegoś środka, ale bezpośrednio na odległościach między punktami danych.
źródło
Co powiesz, jeśli ocena 3 gwiazdki jest mniejsza niż średnia z 5 i 4, a także mniejsza niż średnia z 1 i 2:
Z czubka mojej głowy nie mogę wymyślić żadnej sytuacji, w której to nie zadziałałoby. Korzystając z powyższego przykładu: opinie klientów Amazon dotyczące koszulki z krótkim rękawem The Mountain Three Wolf Moon :
W tym przypadku:
To przejdzie test i zostanie uznane za podzieloną opinię.
źródło
Myślę, że to, czego szukasz, to odchylenie standardowe:
Nie wiem, jaki to język programowania, ale oto metoda Java, która da standardowe odchylenie:
źródło