Weźmy pod uwagę oceny książek na stronie internetowej. Książka A jest oceniana przez 10 000 osób ze średnią oceną 4,25 i wariancją . Podobnie Księga B jest oceniana przez 100 osób i ma ocenę 4,5 przy σ = 0,25 .
Teraz ze względu na dużą próbkę Księgi A „średnia ustabilizowała się” do 4,25. Teraz dla 100 osób może się zdarzyć, że jeśli więcej osób przeczyta Książkę B, średnia ocena może spaść do 4 lub 4,25.
- jak interpretować porównanie średnich z różnych próbek i jakie najlepsze wnioski można / należy wyciągnąć?
Na przykład - czy naprawdę możemy powiedzieć, że Książka B jest lepsza niż Książka A.
t-test
mean
sample-size
Doktorat
źródło
źródło
Odpowiedzi:
Aby wyjaśnić mój punkt widzenia na temat mocy, oto bardzo prosta symulacja napisana dla R:
Myślę o tym przez analogię. Jeśli chcesz poznać obszar prostokąta, a obwód jest stały, obszar ten zostanie zmaksymalizowany, jeśli długość i szerokość będą równe (tj. Jeśli prostokąt jest kwadratem ). Z drugiej strony, gdy długość i szerokość się rozchodzą (w miarę wydłużania się prostokąta), obszar się kurczy.
źródło
set.seed()
funkcja będzie pewność można uzyskać identyczną moc. Daj mi znać, jeśli nadal jest to zbyt trudne.Oprócz odpowiedzi wspomnianej przez @gung odnoszącej się do testu t, brzmi to tak, jakbyś mógł być zainteresowany Bayesowskimi systemami ocen (np. Tutaj jest dyskusja ). Strony internetowe mogą używać takich systemów do uszeregowania pozycji zamówienia różniących się liczbą otrzymanych głosów. Zasadniczo takie systemy działają, przypisując ocenę, która jest złożona ze średniej oceny wszystkich pozycji powiększonej o średnią z próby ocen dla określonego obiektu. Gdy liczba ocen rośnie, waga przypisana do średniej dla obiektu rośnie, a waga przypisana do średniej oceny wszystkich przedmiotów maleje. Być może sprawdź średnie bayesowskie .
Oczywiście sprawy mogą stać się o wiele bardziej złożone, gdy zajmujesz się szerokim zakresem zagadnień, takich jak oszustwa związane z głosowaniem, zmiany w czasie itp.
źródło