Bezstronna ocena mediany

Załóżmy, że mamy losową zmienną $X$ obsługiwaną na $[0,1]$ z której możemy czerpać próbki. Jak możemy bezstronnie oszacować medianę $X$ ?

Możemy oczywiście wygenerować niektóre próbki i pobrać medianę próbki, ale rozumiem, że generalnie nie będzie to obiektywne.

Uwaga: to pytanie jest powiązane, ale nie identyczne, z moim ostatnim pytaniem , w którym to przypadku próbka $X$ mogła zostać pobrana jedynie w przybliżeniu.

sampling robinson
źródło

Odpowiedzi:

Taki estymator nie istnieje.

Intuicja polega na tym, że mediana może pozostać stała, podczas gdy swobodnie przesuwamy gęstość prawdopodobieństwa po obu jej stronach, tak że każdy estymator, którego średnia wartość jest medianą dla jednego rozkładu, będzie miał inną średnią dla zmienionego rozkładu, czyniąc go tendencyjnym. Poniższa ekspozycja dodaje nieco więcej rygorystyczności tej intuicji.

Skupiamy się na rozkład mających unikalnie mediany , tak że definicja i dla wszystkich . Ustal wielkość próbki i załóżmy, że szacuje . (Wystarczy, że $F$ $m$ $F(m) \ge 1/2$ $F(x) \lt 1/2$ $x \lt m$ $n \ge 1$ $t: [0,1]^n \to [0,1]$ $m$ $t$ ograniczać się, ale zwykle nie bierze się poważnie pod uwagę estymatorów, które dają wartości oczywiście niemożliwe.) Nie przyjmujemy żadnych założeń dotyczących ; nigdzie nie musi być ciągła. $t$

Znaczenie bycia obiektywnym (dla tej ustalonej wielkości próby) jest takie $t$

E_{F} [t (X_{1}, \dots, X_{n})] = m

$E_F[t(X_1, \ldots, X_n)] = m$

dla każdej próbki z IID . Określenie „Estymator nieobciążony” jest jednym z obiektu dla wszystkich taki . $X_i \sim F$ $t$ $F$

Załóżmy, że istnieje obiektywny estymator. Wywołamy sprzeczność, stosując ją do szczególnie prostego zestawu dystrybucji. Rozważ rozkłady mające następujące właściwości: $F = F_{x,y,m, \varepsilon}$

; $0 \le x \lt y \le 1$
; $0 \lt \varepsilon \lt (y-x)/4$
; $x + \varepsilon \lt m \lt y - \varepsilon$
; $\Pr(X = x) = \Pr(X = y) = (1-\varepsilon)/2$
; i $\Pr(m-\varepsilon \le X \le m+\varepsilon) = \varepsilon$
jest jednorodne na . $F$ $[m-\varepsilon, m+\varepsilon]$

Te rozkłady prawdopodobieństwa miejsce w każdym z i i niewielka ilość prawdopodobieństwa symetrycznie wokół pomiędzy i . To sprawia $(1-\varepsilon)/2$ $x$ $y$ $m$ $x$ $y$ wyjątkową medianę . (Jeśli obawiasz się, że nie jest to rozkład ciągły, to zmień go bardzo wąskim gaussowskim i skróć wynik do : argument się nie zmieni.) $m$ $F$ $[0,1]$

Teraz, dla każdego przypuszczalnego estymatora mediany , łatwe oszacowanie pokazuje, że jest ściśle w zakresie od średniej z wartości gdzie różnią się we wszystkich możliwych kombinacjach i . Możemy jednak różnić $t$ $E[t(X_1, X_2, \ldots, X_n)]$ $\varepsilon$ $2^n$ $t(x_1, x_2, \ldots, x_n)$ $x_i$ $x$ $y$ $m$ pomiędzy i , zmiana co najmniej , dla którego to oczekiwanie nie jest równe medianie, QED. $x + \varepsilon$ $y - \varepsilon$ $\varepsilon$ (na podstawie warunków 2 i 3). Tak więc istnieje , i stąd odpowiedni rozkład $m$ $F_{x,y,m,\varepsilon}$

Whuber
źródło

(+1) Niezły dowód. Czy wymyśliłeś to, czy pamiętasz coś ze szkoły?

StasK

Oto kolejny dowód: większość zmiennych losowych Bernoulliego ma medianę

lub

. Oszacowanie z

doświadczeń zależy tylko od średnich wartości estymatora na wierzchołkach

i ciężary te średnie wartości jest wielomianem

stopnia

. Jeśli jest to estymator nieobciążony, musi mieć średnią wartość

dla każdego

, i nie więcej niż

takie wartości

0

$0$

1

$1$

n

$n$

[0, 1]^{n}

$[0,1]^n$

k

$k$

p

$p$

n

$n$

1

$1$

p > 1 / 2

$p \gt 1/2$

n + 1

$n+1$

p

$p$ , więc ten wielomian musi być stały ... ale musi wynosić

przy niższych wartościach

, więc nie może być również bezstronny.

0

$0$

p

$p$

Douglas Zare

@Douglas To świetny dowód. Podejrzewam, że niektórzy ludzie mogą czuć się trochę nieswojo na temat zakresu jej stosowania, chociaż, ponieważ mediana zmiennej Bernoulliego jest dość szczególny, jest zbieżna z jednym z dwóch punktów podparcia (z wyjątkiem, gdy

). Czytelnicy mogą mieć pokusę, aby ogłosić to jako „patologiczne” i spróbować powstrzymać takie potwory, patrząc tylko na ciągłe dystrybucje z wszędzie dodatnimi gęstościami w swoich domenach. Dlatego starałem się pokazać, że takie wysiłki się nie powiodą.

p = 1 / 2

$p=1/2$

whuber

Znalezienie obiektywnego estymatora bez modelu parametrycznego byłoby trudne! Ale możesz użyć ładowania początkowego i użyć tego do skorygowania mediany empirycznej, aby uzyskać przybliżony estymator.

kjetil b halvorsen
źródło

Jeśli jest to niemożliwe, czy można to udowodnić? Na przykład, jeśli

są niezależnymi próbkami z

to czy można udowodnić, że

nie może być bezstronny dla jakiegokolwiek wyboru

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \ldots, X_n$

X

$X$

f (X_{1}, \dots, X_{n})

$f(X_1, \ldots, X_n)$

f

$f$

robinson

Myślę, że kjetil mówi, że w ramach nieparametrycznej nie ma metody, która dałaby obiektywne oszacowanie dla każdego możliwego rozkładu. Ale w ramach parametrycznych prawdopodobnie byś mógł. Bootstrapowanie tendencyjnego oszacowania próbki może pozwolić ci oszacować odchylenie i dostosować je, aby uzyskać oszacowanie bootstrapu, które jest prawie bezstronne. To była jego propozycja rozwiązania problemu w ramach nieparametrycznej. Trudne byłoby również udowodnienie, że bezstronna ocena nie jest możliwa.

Michael R. Chernick,

Jeśli naprawdę chcesz spróbować udowodnić, że nie ma obiektywnego estymatora, jest książka Fergusona: „Statystyka matematyczna - podejście teoretyczne oparte na decyzji”, która zawiera kilka przykładów tego rodzaju rzeczy!

kjetil b halvorsen

Wyobrażam sobie, że warunki regularności bootstrapu zostaną naruszone przez funkcje dystrybucji, które Whuber rozważa w swojej odpowiedzi. Michael, możesz komentować?

StasK

@Stas Jak już wspomniałem, moje funkcje mogą wyglądać bardzo „ładnie” poprzez ich zmiękczenie. Można je również uogólniać na mollifikację dużych skończonych mieszanin atomów. Klasa takich rozkładów jest gęsta we wszystkich rozkładach w przedziale jednostkowym, więc nie sądzę, żeby miała tu miejsce regularność ładowania.

whuber

Wierzę, że regresja kwantowa da ci spójny estymator mediany. Biorąc pod uwagę model . I chcesz oszacować ponieważ jest stałą. Wszystko czego potrzebujesz to które powinny być prawdziwe, o ile masz niezależne losowania. Jeśli chodzi o bezstronność, nie wiem. Medianie są trudni. $Y = \alpha + u$ $\text{med}(y) = \text{med}(\alpha + u) = \alpha + \text{med}(u)$ $\alpha$ $\text{med}(u) = 0$

Francis
źródło

Zobacz odpowiedź @whuber

Peter Flom - Przywróć Monikę