Czy odchylenie standardowe można obliczyć dla średniej harmonicznej?

12

Czy odchylenie standardowe można obliczyć dla średniej harmonicznej? Rozumiem, że odchylenie standardowe można obliczyć dla średniej arytmetycznej, ale jeśli masz średnią harmoniczną, jak obliczyć odchylenie standardowe lub CV?

kjetil b halvorsen
źródło

Odpowiedzi:

13

Średnia harmoniczna zmiennych losowych jest zdefiniowana jakoHX1,...,Xn

H=11ni=1n1Xi

Biorąc chwile z frakcji jest brudny biznes, więc zamiast tego wolałbym pracować z . Teraz1/H

1H=1ni=1n1Xi
.

Używając centralnego twierdzenia o granicy, natychmiast to rozumiemy

n(H1EX11)N(0,VarX11)

jeśli oczywiście i są iid, ponieważ po prostu pracujemy ze średnią arytmetyczną zmiennych .VarX11<XiYi=Xi1

Teraz przy pomocy Metody delta dla funkcji otrzymujemy żeg(x)=x1

n(H(EX11)1)N(0,VarX11(EX11)4)

Ten wynik jest asymptotyczny, ale w przypadku prostych aplikacji może wystarczyć.

Aktualizacja Jak słusznie zauważa @whuber, proste aplikacje są błędne. Twierdzenie o limicie centralnym obowiązuje tylko wtedy, gdy , co jest dość restrykcyjnym założeniem.VarX11

Aktualizacja 2 Jeśli masz próbkę, to aby obliczyć odchylenie standardowe, po prostu podłącz momenty próbne do formuły. Tak więc dla próbki , szacunkowa średnia harmonicznej wynosiX1,...,Xn

H^=11ni=1n1Xi

przykładowymi momentami i są odpowiednio:EX11Var(X11)

μ^R=1ni=1n1Xiσ^R2=1ni=1n(1XiμR)2

tutaj oznacza wzajemność.R

Wreszcie przybliżona formuła standardowego odchylenia toH^

sd(H^)=σ^R2nμ^R4

Przeprowadziłem symulacje Monte-Carlo dla zmiennych losowych równomiernie rozmieszczonych w przedziale . Oto kod:[2,3]

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

Symulowałem Npróbki nwielkości próbki. Dla każdej nwielkości próbki wyliczyłem oszacowanie standardowego oszacowania (funkcji sdhm). Następnie porównuję średnią i odchylenie standardowe tych oszacowań z odchyleniem standardowym średniej harmonicznej próbki oszacowanym dla każdej próbki, co prawdopodobnie powinno być prawdziwym odchyleniem standardowym średniej harmonicznej.

Jak widać, wyniki są dość dobre nawet dla średnich rozmiarów próbek. Oczywiście równomierny rozkład jest bardzo dobrze zachowany, więc nic dziwnego, że wyniki są dobre. Zostawię komuś innemu, aby zbadał zachowanie innych dystrybucji, kod jest bardzo łatwy do dostosowania.

Uwaga: W poprzedniej wersji tej odpowiedzi wystąpił błąd w wyniku metody delta, niepoprawna wariancja.

mpiktas
źródło
2
@mpiktas To dobry początek i zawiera wskazówki, kiedy CV jest niskie. Ale nawet w praktycznych, prostych sytuacjach nie jest jasne, czy obowiązuje CLT. Spodziewałbym się, że odwrotność wielu zmiennych nie będzie miała skończonych sekund, a nawet pierwszych momentów, gdy istnieje jakiekolwiek znaczące prawdopodobieństwo, że ich wartości mogą być bliskie zeru. Spodziewałbym się również, że metoda delta nie będzie stosowana ze względu na potencjalnie duże pochodne odwrotności w pobliżu zera. W ten sposób może pomóc bardziej precyzyjnie scharakteryzować „proste aplikacje”, w których może działać Twoja metoda. BTW, co to jest „D”?
whuber
@ whuber, D oznacza wariancję, . Przez proste aplikacje rozumiałem te, dla których istnieje wariancja i środek wzajemności. Jak mówisz dla zmiennych losowych z dużym prawdopodobieństwem, że ich wartości mogą być bliskie zeru, odwrotność może nawet nie mieć średniej. Ale odpowiedź na pierwotne pytanie brzmi: nie. Przyjąłem, że OP zapytał, czy możliwe jest obliczenie odchylenia standardowego, jeśli istnieje. Oczywiście nie dotyczy to wielu zmiennych losowych. DX=E(XEX)2
mpiktas
@ Whuber, BTW z ciekawości jest dla mnie dość standardową notacją, ale można powiedzieć, że pochodzę z rosyjskiej szkoły prawdopodobieństwa. Nie jest to tak powszechne w „kapitalistycznym Zachodzie”? :)DX
mpiktas
@mpiktas Nigdy nie widziałem tego zapisu dla wariancji. Moją pierwszą reakcją było to, że jest operatorem różnicowym! Standardowe notacje są mnemoniczne, takie jak . DVar[X]
whuber
1
Artykuł „Rozkłady odwrócone” autorstwa EL Lehmanna i Juliet Popper Shaffer jest interesującą lekturą dotyczącą rozkładów odwróconych zmiennych losowych.
emakalic
2

Moja odpowiedź na powiązane pytanie wskazuje, że średnia harmoniczna zbioru dodatnich danych jest oszacowaną wagą najmniejszych kwadratów (WLS) (o wagach ). Można zatem obliczyć jego standardowy błąd przy użyciu metod WLS. Ma to pewne zalety, w tym prostotę, ogólność i interpretowalność, a także jest automatycznie wytwarzane przez dowolne oprogramowanie statystyczne, które umożliwia obliczanie regresji przez wagi.xi1/xi

Główną wadą jest to, że obliczenia nie dają dobrych przedziałów ufności dla silnie wypaczonych rozkładów podstawowych. Może to stanowić problem w przypadku dowolnej metody ogólnego zastosowania: średnia harmoniczna jest wrażliwa na obecność nawet jednej niewielkiej wartości w zbiorze danych.

Aby to zilustrować, oto rozkłady empiryczne niezależnie generowanych próbek o wielkości z rozkładu Gamma (5) (który jest nieco skośny). Niebieskie linie pokazują prawdziwą średnią harmoniczną (równą ), podczas gdy czerwone linie przerywane pokazują szacowane wartości najmniejszych kwadratów. Pionowe szare pasy wokół niebieskich linii to w przybliżeniu dwustronne 95% przedziały ufności dla średniej harmonicznej. W tym przypadku we wszystkich próbkach CI obejmuje rzeczywistą średnią harmoniczną. Powtórzenia tej symulacji (z losowymi nasionami) sugerują, że zasięg jest zbliżony do zamierzonego poziomu 95%, nawet dla tych małych zestawów danych.20n=12420

Ryciny

Oto Rkod symulacji i rysunków.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}
Whuber
źródło
1

Oto przykład Exponential r.v's.

Średnia harmoniczna dla punktów danych jest zdefiniowana jakon

S=11ni=1nXi

Załóżmy, że mamy IID próbki o zmiennej losowej wykładniczej . Suma zmiennych wykładniczych odpowiada rozkładowi gammanXiExp(λ)n

i=1nXiGamma(n,θ)

gdzie . My też to wiemyθ=1λ

1nGamma(n,θ)Gamma(n,θn)

Rozkład jest zatemS

SInvGamma(n,nθ)

Wariancja (i odchylenie standardowe) tego rv są dobrze znane, patrz na przykład tutaj .

emakaliczny
źródło
3
twoja definicja średniej harmonicznej nie zgadza się z wikipedią
mpiktas
Korzystanie z wykładniczych jest dobrym podejściem do zrozumienia problemu.
whuber
1
Wszelka nadzieja nie jest całkowicie utracona. Jeśli Xi ~ Exp (\ lambda) to Xi ~ Gamma (1, \ lambda), a więc 1 / Xi ~ InvGamma (1, 1 / \ lambda). Następnie użyj „V. Witkovsky (2001) Obliczając rozkład liniowej kombinacji odwróconych zmiennych gamma, Kybernetika 37 (1), 79-90” i zobacz, jak daleko się posuniesz!
tristan
0

1/X1/XXX11/X1

Karl
źródło
0

σ=Ni=1N(1x^1xi)2,

x^=N1xix^=N1xix

1N(x^xi)2x^x^x^=μ=1Nxi

Gil Wolff
źródło