Niedawno przeczytałem radę, że powinieneś raczej używać mediany, a nie oznaczać eliminacji wartości odstających. Przykład: następujący artykuł http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
ma w tej chwili 16 opinii:
review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review) ## "ordinary" summary
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.750 5.000 4.062 5.000 5.000
Ponieważ używają Mean artykuł dostaje 4 gwiazdki, ale gdyby użyć Mediana byłoby dostać 5 gwiazdek.
nie jest sędzia mediana za „sprawiedliwszy”?
An pokazuje eksperyment że błąd mediana jest zawsze większy niż myśli. Czy mediana jest gorsza?
library(foreach)
#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)
#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))
#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)
res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)
Odpowiedzi:
Problemem jest to, że tak naprawdę nie definiuje, co to znaczy mieć dobre lub uczciwą ocenę. Sugerujesz w komentarzu do odpowiedzi @ Kevin, że nie podoba ci się, jeśli jedna zła recenzja usunie element. Ale porównując dwie pozycje gdzie jeden ma „doskonały rekord”, a druga ma jedną złą opinię, że różnica może powinno być odzwierciedlone.
Jest cała (high-wymiarowej) kontinuum pomiędzy mediana i średnia. Możesz uporządkować głosy według wartości, a następnie przyjąć średnią ważoną wraz z wagami w zależności od pozycji w tej kolejności. Średnie spełnia wszystkie wagi są równe, mediana odpowiada tylko jedna lub dwie pozycje w środku coraz masę niezerową, wykadrowanego średnie, odpowiada podając wszystkie z wyjątkiem pierwszej i ostatniej pary tej samej wadze, ale można też zdecydować się waga th oUT n próbki o masie 1k n lubexp(-(2k-1-n)211+(2k−1−n)2 , aby wrzucić tam coś losowego. Może taka średnia ważona, gdzie odstających uzyskać mniejszą wagę, ale nadal kwota niezerowe, mógłby połączyć dobre właściwości mediana i średnia?exp(−(2k−1−n)2n2)
źródło
Odpowiedź dostaniesz zależy od pytania zapytać.
Średnie i mediany odpowiedź różne pytania. Więc dają różne odpowiedzi. To nie tak, że ktoś jest „bardziej sprawiedliwe” niż inny. Mediany są często stosowane z mocno wypaczonymi danymi (takimi jak dochód). Ale nawet tam, czasami średnia jest najlepszy. A czasami nie chce żadnych miary tendencji centralnej.
Ponadto, gdy dajesz miary tendencji centralnej, należy nadać pewien stopień rozprzestrzenienia. Najczęstszym Pary są średnie odchylenie standardowe i mediana-międzykwartylowy zakres. W przypadku tych danych podanie jedynie mediany wynoszącej 5 jest, moim zdaniem, wprowadzające w błąd lub przynajmniej nieinformacyjne. Mediana byłoby również 5 jeśli każdy oceniany był 5.
źródło
Jeśli tylko wybory są liczbami całkowitymi w zakresie od 1 do 5, mogą być uznane za każdy naprawdę poboczna?
źródło
To zależy od funkcji kosztu używasz.
MSE jest zminimalizowane. Dlatego jeśli używasz MSE mediana będzie zawsze gorzej niż średnia.
Ale, jeśli chcesz używać bezwzględnej błędu, niż średnia będzie gorzej!
Miły wyjaśnienie na ten temat można znaleźć tutaj: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/
Wybór zależy od problemu i preferencji. Jeśli nie chcesz, aby wartości odstające miały duży wpływ na pozycję „punktu centralnego”, wybierz medianę. Jeśli dbasz o odstających, wybrać średnią.
źródło
Tylko szybka myśl:
Jeśli założymy, że każda ocena jest pobierana z ukrytej zmiennej ciągłej, a następnie można określić medianę tej podstawowej ciągłej zmiennej zainteresowania jako wartości odsetek, niż średnia z tej podstawowej dystrybucji. Gdy rozkład jest symetryczny, wówczas średnia i mediana ostatecznie oszacują te same wielkości. Gdy rozkład jest wypaczony, mediana różni się od średniej. W tym przypadku, moim zdaniem, mediana bardziej odpowiadałaby temu, co uważamy za typową wartość. To w pewien sposób do zrozumienia, dlaczego średni dochód i mediana ceny domów są zazwyczaj zgłaszane raczej niż średni.
Jednak w przypadku niewielkiej liczby wartości dyskretnych mediana działa słabo.
Być może możesz zastosować procedurę szacowania gęstości, a następnie wziąć medianę tego lub użyć interpolowanej mediany.
źródło
Wspaniałą rzeczą przy użyciu mediany dla oceny gwiazda jest, że inteligentne użytkowników (świadome wykorzystaniem mediany) nie „gra” system:
Jeśli racjonalna użytkownik uważa, że właściwa ocena powinna być 4 gwiazdki, ale obecnie ma 4,5 gwiazdki, to najlepszym sposobem, aby dostać się czterema gwiazdkami (zakładając, że nie było więcej niż sześć głosów) jest do głosowania 1 gwiazdkę w średnim systemu klasyfikacji opartej .
Podczas gdy w środkowej systemu opartego na racjonalny wybór użytkownika jest po prostu do głosowania dokładnie liczba gwiazd użytkownik uważa, że produkt powinien mieć.
To rodzaj drugiego odpowiednika aukcji cenowej dla systemów oceny gwiazdek.
źródło
Kilka dobrych odpowiedzi wciąż pozostawia miejsce na więcej komentarzy.
Po pierwsze, nikt nie sprzeciwił się idei, że mediana jest przeznaczony do eliminacji wartości odstających, ale będę go zakwalifikować. Zamierzone znaczenie jest oczywiste, ale łatwo jest prawdziwe dane były bardziej skomplikowane. Co najwyżej mediana ma na celu pomijanie lub ignorowanie wartości odstających, ale nawet to nie jest gwarantowane. Na przykład przy ocenach 1 1 1 5 5 5 mediana i średnia zgadzają się na poziomie 3, więc wszystko może wydawać się dobre. Ale dodatkowe 5 spowoduje przechylenie mediany do 5, a dodatkowe 1 spowoduje przechylenie mediany do 1. Średnia zmieni się o około 0,286 w każdym przypadku. Stąd średnia jest tu bardziej odporne niż mediana. Przykład można odrzucić jako niezwykły, ale nie jest on oburzający. Punkt nie jest oryginalny, naturalny. Jedno miejsce jest wykonany jest w Mosteller, F. i Tukeya, JW 1977. Analiza danych i regresji. Reading, MA: Addison-Wesley, pp.34-35.
Po drugie, przycięte środki zostały wymienione i idea zasługuje na większy impuls. Średnia i mediana nie musi być tak, że stark alternatywy analityk musi wybrać (głosowanie) za jedną lub drugą stronę. Możesz rozważyć wszystkie możliwe przycięte środki w oparciu o przycięcie określonej liczby wartości w każdym ogonie . Tabela pokazuje jako # liczbę wartości uwzględnionych przy obliczaniu średniej:
Główny obraz jest to, że można wybrać stopę dyskontową (ignoruj tak wiele wartości w każdej ogona jako podejrzanego) jako rodzaj ubezpieczenia od ryzyka jest wyłączony z powodu ekstremalnych wartości. Co widzę jest stosunkowo gładkiego gradientu pomiędzy średnią i medianę, przy czym oczekuje się tutaj, ponieważ możliwe wartości 1, 2, 3, 4, 5 są obecne w danych. Oczekiwany jest duży skok w sekwencji z izolowaną wartością odstającą.
Nie ma obowiązku z przyciętymi środków do wykończenia równych liczb w każdej ogonie, ale nie rozszerzy się na tym.
Po trzecie, przykładem są recenzje Amazon. Kontekst ma zawsze znaczenie przy określaniu sposobu podsumowania danych . W przypadku opinii Amazon najlepszą odpowiedzią jest, aby przeczytać! Jak wysokie i niskie stopnie podobnie może być na fałszywych podstawach (domyślnie: autor tej książki jest moim przyjacielem) i / lub nieistotne dla swojej decyzji (wyraźnie: re-sprzedawca traktował mnie źle), to nie jest dla mnie oczywista wpływ na sposób podsumowania takich danych, a nawet pokazanie dystrybucji Amazon jest maksymalnie informacyjny.
Po czwarte, a najbardziej elementarnym ale również fundamentalną wszystkich, który czyni wybrać? Czasami średnia i mediana powinny być zgłaszane zarówno (i, jak powiedział, wykres rozkładu zbyt).
źródło