Obliczanie błędu standardowego w oszacowaniu średniej ważonej

16

Załóżmy, że w1,w2,,wn i x1,x2,...,xn są każdy narysowany IID go w dystrybucji z niezależnie od . W są absolutnie pozytywne. Obserwujesz wszystkie , ale nie ; raczej obserwujesz . Jestem zainteresowany oszacowaniem nazwawixiwiwixiixiwiE[x] podstawie tych informacji. Oczywiście estymator

x¯=iwixiiwi
jest bezstronny i można go obliczyć, biorąc pod uwagę dostępne informacje.

Jak mogę obliczyć standardowy błąd tego estymatora? W przypadku, w którym xi przyjmuje tylko wartości 0 i 1, naiwnie próbowałem

sex¯(1x¯)iwi2iwi,
w zasadzie nie zważając na zmiennośćwi, ale okazało się, że to źle wykonywane na próbce o rozmiarach mniejszych niż około 250. (i to prawdopodobnie zależy od wariancjiwi). Wydaje się, że może nie robić mieć wystarczającą ilość informacji, aby obliczyć „lepszy” błąd standardowy.
shabbychef
źródło

Odpowiedzi:

17

Ostatnio spotkałem ten sam problem. Oto co znalazłem:

W przeciwieństwie do prostej próby losowej o równej wadze, nie ma powszechnie przyjętej definicji błędu standardowego średniej ważonej . W dzisiejszych czasach byłoby łatwo wykonać bootstrap i uzyskać empiryczny rozkład średniej i na podstawie tej oceny błąd standardowy.

Co jeśli ktoś chciałby użyć formuły do ​​tego oszacowania?

Głównym odniesieniem jest ten artykuł autorstwa Donalda F. Gatza i Luthera Smitha, w którym 3 estymatory oparte na formułach są porównywane z wynikami bootstrap. Najlepsze przybliżenie wyniku ładowania początkowego pochodzi z Cochran (1977):

(SEMw)2=n(n1)(Pi)2[(PiXiP¯X¯w)22X¯w(PiP¯)(PiXiP¯X¯w)+X¯w2(PiP¯)2]

Poniżej znajduje się odpowiedni kod R pochodzący z tego wątku R listserve .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

Mam nadzieję że to pomoże!

Ming K.
źródło
To całkiem fajne, ale dla mojego problemu nawet nie obserwuję , raczej obserwuję sumę i P i X i . Moje pytanie jest bardzo dziwne, ponieważ wiąże się z pewną asymetrią informacji (strona trzecia zgłasza sumę i może próbuje ukryć jakieś informacje). P.jaXjajaP.jaXja
shabbychef,
Racja, masz rację, przepraszam, nie do końca zrozumiałem postawione pytanie. Załóżmy, że gotować problemu w dół do najprostszego przypadku, gdy wszyscy są Bernoulliego RV. Zatem zasadniczo obserwujesz sumę losowego podzbioru n RV. Domyślam się, że nie ma tu zbyt wielu informacji do oszacowania. Co więc zrobiłeś dla swojego pierwotnego problemu? win
Ming K,
@ Ming-ChihKao ta formuła Cochran jest interesująca, ale jeśli zbudujesz przedział ufności na tym, gdy dane nie są normalne, nie ma spójnej interpretacji poprawnej? Jak poradziłbyś sobie z nietypowymi średnimi ważonymi przedziałami ufności? Ważone kwantyle?
user3022875,
Myślę, że jest błąd w funkcji. Jeśli zastąpisz w=rep(1, length(x)), to weighted.var.se(rnorm(50), rep(1, 50))jest o 0.014. Myślę, że w formule brakuje a sum(w^2)w liczniku, ponieważ kiedy występuje P=1wariancja 1/(n*(n-1)) * sum((x-xbar)^2). Nie mogę sprawdzić cytowanego artykułu, ponieważ znajduje się on za zaporą, ale myślę, że to poprawka. Co dziwne, rozwiązanie Wikipedii (inne) ulega degeneracji, gdy wszystkie wagi są równe: en.wikipedia.org/wiki/… .
Max Candocia,
Mogą one ogólnie działać lepiej: analyticalgroup.com/download/WEIGHTED_MEAN.pdf
Max Candocia
5

Wariancja twojego oszacowania przy wynosi w 2 i V a r ( X )wja Ponieważ twoje oszacowanie jest obiektywne dla dowolnegowi, wariancja jego średniej warunkowej wynosi zero. Zatem wariancja twojego oszacowania wynosi Var(X)E( w 2 i

wi2Var(X)(wi)2=Var(X)wi2(wi)2.
wi
Var(X)E(wi2(wi)2)
XiVar(X)
Gość
źródło
xixx¯(1x¯)