Dla jakich rozkładów istnieje niezależny estymator zamknięty dla odchylenia standardowego?

Dla rozkładu normalnego istnieje obiektywny estymator odchylenia standardowego podany przez:

{\hat{σ}}_{unbiased} = \frac{Γ (\frac{n - 1}{2})}{Γ (\frac{n}{2})} \sqrt{\frac{1}{2} \sum_{k = 1}^{n} (x_{i} - \bar{x})^{2}}

$\hat{\sigma}_\text{unbiased} = \frac{\Gamma(\frac{n-1}{2})}{\Gamma(\frac{n}{2})} \sqrt{\frac{1}{2}\sum_{k=1}^n(x_i-\bar{x})^2}$

Powodem, dla którego ten wynik nie jest tak dobrze znany, wydaje się być fakt, że jest to w dużej mierze osobliwość, a nie sprawa wielkiego znaczenia . Dowód jest pokryty tym wątkiem ; wykorzystuje kluczową właściwość rozkładu normalnego:

\frac{1}{σ^{2}} \sum_{k = 1}^{n} (x_{i} - \bar{x})^{2} \sim χ_{n - 1}^{2}

$\frac{1}{\sigma^2} \sum_{k=1}^n(x_i-\bar{x})^2 \sim \chi^{2}_{n-1}$

Stamtąd przy odrobinie pracy można przyjąć oczekiwanie , a przez określenie tę odpowiedź jako wielokrotnośćmożemy wywnioskować wynik dla. $\mathbb{E}\left( \sqrt{\sum_{k=1}^n(x_i-\bar{x})^2} \right)$ $\sigma$ $\hat{\sigma}_\text{unbiased}$

To mnie ciekawi, które inne rozkłady mają bezstronny estymator odchylenia standardowego o zamkniętej formie. W przeciwieństwie do obiektywnego estymatora wariancji, jest to wyraźnie zależne od rozkładu. Ponadto dostosowanie dowodu w celu znalezienia estymatorów dla innych dystrybucji nie byłoby proste.

Rozkłady skośno-normalne mają pewne ładne właściwości dystrybucyjne dla swoich form kwadratowych, których użyta przez nas właściwość rozkładu normalnego jest faktycznie specjalnym przypadkiem (ponieważ normalna jest specjalnym rodzajem skośnego-normalnego), więc być może nie byłoby tak trudno rozszerz tę metodę na nich. Ale w przypadku innych dystrybucji wydaje się, że wymagane jest zupełnie inne podejście.

Czy istnieją inne rozkłady, dla których takie estymatory są znane?

mathematical-statistics standard-deviation unbiased-estimator Silverfish
źródło

Jeśli zignorujesz techniczne zakłócenia, charakter odpowiedzi stanie się jaśniejszy. W normalnym przypadku niewiele z tego, co piszesz, jest naprawdę istotne dla wniosku; liczy się tylko to, że wielkość błędu w tym konkretnym estymatorze jest funkcją samego

(i nie zależy od innych parametrów dystrybucyjnych, które należy oszacować na podstawie danych).

n

$n$

whuber

@ whuber Myślę, że widzę ogólną ideę, o której mówisz, i wyraźnie „funkcja samego

” jest konieczna. Ale nie sądzę, by to wystarczyło - gdybyśmy nie mieli dostępu do dobrych wyników dystrybucyjnych, nie widzę, w jaki sposób aspekt „zamkniętej formy” byłby możliwy do zrealizowania.

n

$n$

Silverfish,

To zależy od tego, co rozumiesz przez „zamkniętą formę”. Na przykład dla jednej osoby funkcja theta może być „zamknięta”, ale dla innej jest to po prostu nieskończony produkt, szereg potęgowy lub całka złożona. Pomyśl o tym, właśnie taka jest funkcja Gamma :-).

whuber

@whuber Dobra uwaga! Przez „ilość odchylenia w tym konkretnym estymatorze” rozumiem, że masz na myśli, że odchylenie w

(zamiast estymatora wymienionego w pytaniu, które ma zerowe odchylenie) jest funkcją

(a także w

, ale na szczęście w taki sposób, że możemy łatwo zmienić sposób znalezienia obiektywnego estymatora)?

s

$s$

n

$n$

σ

$\sigma$

Silverfish,

@ whuber: Powinna istnieć podobna formuła dla każdej rodziny o skali lokalizacji, z zastrzeżeniem, na które zwróciłeś uwagę, że funkcja

może być nieodłączną całką.

n

$n$

Xi'an

Odpowiedzi:

Chociaż nie jest to bezpośrednio związane z pytaniem, istnieje artykuł z 1968 r. Autorstwa Petera Bickela i Ericha Lehmanna, który stwierdza, że dla wypukłej rodziny rozkładów istnieje obiektywny estymator funkcjonalnego (dla wielkości próby wystarczająco duży) wtedy i tylko wtedy, gdy jest wielomianem w $F$ $q(F)$ $n$ $q(\alpha F+(1-\alpha)G)$ $0\le \alpha\le 1$ . Twierdzenie to nie dotyczy tutaj problemu, ponieważ zbiór rozkładów Gaussa nie jest wypukły (mieszanina Gaussów nie jest gaussowska).

Rozszerzeniem wyniku w tym pytaniu jest to, że każdą moc odchylenia standardowego można bezstronnie oszacować, pod warunkiem, że istnieje wystarczająca ilość obserwacji, gdy . Wynika to z wyniku $\sigma^\alpha$ $\alpha<0$ żejest skalą (i unikalnym) parametrem dla.

\frac{1}{σ^{2}} \sum_{k = 1}^{n} (x_{i} - \bar{x})^{2} \sim χ_{n - 1}^{2}

$\frac{1}{\sigma^2} \sum_{k=1}^n(x_i-\bar{x})^2 \sim \chi^{2}_{n-1}$

σ

$\sigma$

\sum_{k = 1}^{n} (x_{i} - \bar{x})^{2}

$\sum_{k=1}^n(x_i-\bar{x})^2$

To normalne ustawienie można następnie rozszerzyć na dowolną rodzinę w skali lokalizacji ze skończoną wariancją . W rzeczy samej,

X_{1}, \dots, X_{n} \overset{iid}{\sim} τ^{- 1} f (τ^{- 1} {x - μ})

$X_1,\ldots,X_n\stackrel{\text{iid}}{\sim} \tau^{-1}f(\tau^{-1}\{x-\mu\})$

σ^{2}

$\sigma^2$

wariancja jest tylko funkcją ; ${var}_{μ, τ} (X) = E_{μ, τ} [(X - μ)^{2}] = τ^{2} E_{0, 1} [X^{2}]$ $\text{var}_{\mu,\tau}(X)=\mathbb{E}_{\mu,\tau}[(X-\mu)^2]=\tau^2\mathbb{E}_{0,1}[X^2]$ $\tau$
suma kwadratów $\begin{aligned} E_{μ, τ} [\sum_{k = 1}^{n} (X_{i} - \bar{X})^{2}] & = τ^{2} E_{μ, τ} [\sum_{k = 1}^{n} τ^{- 2} (X_{i} - μ - \bar{X} + μ)^{2}] \\ = τ^{2} E_{0, 1} [\sum_{k = 1}^{n} (X_{i} - \bar{X})^{2}] \end{aligned}$ $\begin{align*}\mathbb{E}_{\mu,\tau}\left[\sum_{k=1}^n(X_i-\bar{X})^2\right]&=\tau^2\mathbb{E}_{\mu,\tau}\left[\sum_{k=1}^n\tau^{-2}(X_i-\mu-\bar{X}+\mu)^2\right]\\ &=\tau^2\mathbb{E}_{0,1}\left[\sum_{k=1}^n(X_i-\bar{X})^2\right]\end{align*}$ has an expectation of the form $\tau^2\psi(n)$ ;
$E_{μ, τ} [{\sum_{k = 1}^{n} (X_{i} - \bar{X})^{2}}^{α}] = τ^{2 α} E_{0, 1} [{\sum_{k = 1}^{n} (X_{i} - \bar{X})^{2}}^{α}]$ $\mathbb{E}_{\mu,\tau}\left[\left\{\sum_{k=1}^n(X_i-\bar{X})^2\right\}^\alpha\right]=\tau^{2\alpha}\mathbb{E}_{0,1}\left[\left\{\sum_{k=1}^n(X_i-\bar{X})^2\right\}^\alpha\right]$ such that the expectation is finite.

Xi'an
źródło

A probably well known case, but a case nevertheless.
Consider a continuous uniform distribution $U(0,\theta)$ . Given an i.i.d. sample, the maximum order statistic, $X_{(n)}$ has expected value

E (X_{(n)}) = \frac{n}{n + 1} θ

$E(X_{(n)}) = \frac {n}{n+1}\theta$

The standard deviation of the distribution is

σ = \frac{θ}{2 \sqrt{3}}

$\sigma = \frac {\theta}{2\sqrt 3}$

So the estimator

\hat{σ} = \frac{1}{2 \sqrt{3}} \frac{n + 1}{n} X_{(n)}

$\hat \sigma = \frac 1{2\sqrt 3}\frac {n+1}{n}X_{(n)}$

is evidently unbiased for $\sigma$ .

This generalizes to the case where the lower bound of the distribution is also unknown, since we can have an unbiased estimator for the Range, and then the standard deviation is again a linear function of the Range (as is essentially above also).

This exemplifies @whuber's comment, that "the amount of bias is a function of $n$ alone" (plus possibly any known constants) -so it can be deterministically corrected. And this is the case here.

Alecos Papadopoulos
źródło

Now the hard part: when in the world are we interested in the standard deviation of a uniform distribution? (+1)

shadowtalker

@ssdecontrol That's an excellent question! -please proceed to the next one...

Alecos Papadopoulos

One thing I love about this answer is how poor the estimator is. It's quite common to see a question which boils down to "why do we use

\hat{θ}

$\hat{\theta}$ as an estimator even though it's biased?" Some students need convincing that unbiasedness is not the be-all and end-all, and a poor unbiased estimator is one way to show them.

Silverfish

@Silverfish Poor in what way? Some quick simulations show this to have lower MSE than the usual standard deviation (which surprised me).

Dave

@Dave Interesting! I had jumped to the conclusion it would be poor since it only looked at the maximum order statistic, but I too stand surprised! Shows the value of doing some simulation...

Silverfish