Jak interpretować porównanie średnich z różnych wielkości próby?

49

Weźmy pod uwagę oceny książek na stronie internetowej. Książka A jest oceniana przez 10 000 osób ze średnią oceną 4,25 i wariancją . Podobnie Księga B jest oceniana przez 100 osób i ma ocenę 4,5 przy σ = 0,25 .σ=0.5σ=0.25

Teraz ze względu na dużą próbkę Księgi A „średnia ustabilizowała się” do 4,25. Teraz dla 100 osób może się zdarzyć, że jeśli więcej osób przeczyta Książkę B, średnia ocena może spaść do 4 lub 4,25.

  • jak interpretować porównanie średnich z różnych próbek i jakie najlepsze wnioski można / należy wyciągnąć?

Na przykład - czy naprawdę możemy powiedzieć, że Książka B jest lepsza niż Książka A.

Doktorat
źródło
Czy jesteś szczególnie zainteresowany kontekstem oceny?
Jeromy Anglim
@JeromyAnglim - Hmmm ... prawdopodobnie. Niepewny. To najczęstszy przykład. Co miałeś na myśli?
dr
2
Zobacz moją odpowiedź dotyczącą Bayesowskich systemów oceny poniżej. W zastosowanych kontekstach oceny zazwyczaj oceniane są setki lub tysiące obiektów, a często celem jest uzyskanie najlepszego oszacowania oceny obiektu, biorąc pod uwagę dostępne informacje. To bardzo różni się od prostego porównania dwóch grup, jak można powiedzieć w eksperymencie medycznym z dwiema grupami.
Jeromy Anglim

Odpowiedzi:

57

Nn

Aby wyjaśnić mój punkt widzenia na temat mocy, oto bardzo prosta symulacja napisana dla R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

N=100n1=50n2=50n1=75n2=25n1=90n2=10. Należy ponadto zauważyć, że ustandaryzowany średni proces generowania różnic / danych był taki sam we wszystkich przypadkach. Jednak podczas gdy test był „znaczący” w 70% przypadków dla próbki 50–50, moc wynosiła 56% przy 75–25 i tylko 33%, gdy wielkość grupy wynosiła 90–10.

Myślę o tym przez analogię. Jeśli chcesz poznać obszar prostokąta, a obwód jest stały, obszar ten zostanie zmaksymalizowany, jeśli długość i szerokość będą równe (tj. Jeśli prostokąt jest kwadratem ). Z drugiej strony, gdy długość i szerokość się rozchodzą (w miarę wydłużania się prostokąta), obszar się kurczy.

gung - Przywróć Monikę
źródło
moc jest zmaksymalizowana? Nie jestem pewien, czy rozumiem. Czy możesz podać przykład, jeśli to możliwe?
dr
5
Powodem, dla którego test t może poradzić sobie z nierównymi wielkościami próbek, jest wzięcie pod uwagę błędu standardowego oszacowań średnich dla każdej grupy. Jest to standardowe odchylenie rozkładu grupy podzielone przez pierwiastek kwadratowy z wielkości próby grupy. Grupa o znacznie większej wielkości próby będzie miała mniejszy błąd standardowy, jeśli odchylenia standardowe populacji będą równe lub prawie równe.
Michael Chernick
@gung - Nie jestem pewien, czy naprawdę wiem, w jakim „języku” jest napisana ta symulacja. Zgaduję „R”? i wciąż próbuję to rozszyfrować :)
PhD
2
Kod dotyczy R. Skomentowałem go, aby ułatwić śledzenie. Możesz po prostu skopiować i wkleić go do R i uruchomić samodzielnie, jeśli masz R; set.seed()funkcja będzie pewność można uzyskać identyczną moc. Daj mi znać, jeśli nadal jest to zbyt trudne.
gung - Przywróć Monikę
8
N=n1+n2n1×n2n1n2
10

Oprócz odpowiedzi wspomnianej przez @gung odnoszącej się do testu t, brzmi to tak, jakbyś mógł być zainteresowany Bayesowskimi systemami ocen (np. Tutaj jest dyskusja ). Strony internetowe mogą używać takich systemów do uszeregowania pozycji zamówienia różniących się liczbą otrzymanych głosów. Zasadniczo takie systemy działają, przypisując ocenę, która jest złożona ze średniej oceny wszystkich pozycji powiększonej o średnią z próby ocen dla określonego obiektu. Gdy liczba ocen rośnie, waga przypisana do średniej dla obiektu rośnie, a waga przypisana do średniej oceny wszystkich przedmiotów maleje. Być może sprawdź średnie bayesowskie .

Oczywiście sprawy mogą stać się o wiele bardziej złożone, gdy zajmujesz się szerokim zakresem zagadnień, takich jak oszustwa związane z głosowaniem, zmiany w czasie itp.

Jeromy Anglim
źródło
Słodkie. Nigdy nie słyszałem o tym. Na pewno się temu przyjrzę. Może w końcu o to mi chodzi :)
Doktor