Bezstronna ocena mediany

16

Załóżmy, że mamy losową zmienną X obsługiwaną na [0,1] z której możemy czerpać próbki. Jak możemy bezstronnie oszacować medianę X ?

Możemy oczywiście wygenerować niektóre próbki i pobrać medianę próbki, ale rozumiem, że generalnie nie będzie to obiektywne.

Uwaga: to pytanie jest powiązane, ale nie identyczne, z moim ostatnim pytaniem , w którym to przypadku próbka X mogła zostać pobrana jedynie w przybliżeniu.

robinson
źródło

Odpowiedzi:

13

Taki estymator nie istnieje.

Intuicja polega na tym, że mediana może pozostać stała, podczas gdy swobodnie przesuwamy gęstość prawdopodobieństwa po obu jej stronach, tak że każdy estymator, którego średnia wartość jest medianą dla jednego rozkładu, będzie miał inną średnią dla zmienionego rozkładu, czyniąc go tendencyjnym. Poniższa ekspozycja dodaje nieco więcej rygorystyczności tej intuicji.


Skupiamy się na rozkład mających unikalnie mediany m , tak że definicja F ( m ) 1 / 2 i F ( x ) < 1 / 2 dla wszystkich x < m . Ustal wielkość próbki n 1 i załóżmy, że t : [ 0 , 1 ] n[ 0 , 1 ] szacuje m . (Wystarczy, że tFmF(m)1/2F(x)<1/2x<mn1t:[0,1]n[0,1]mtograniczać się, ale zwykle nie bierze się poważnie pod uwagę estymatorów, które dają wartości oczywiście niemożliwe.) Nie przyjmujemy żadnych założeń dotyczących ; nigdzie nie musi być ciągła.t

Znaczenie bycia obiektywnym (dla tej ustalonej wielkości próby) jest takiet

EF[t(X1,,Xn)]=m

dla każdej próbki z IID . Określenie „Estymator nieobciążony” t jest jednym z obiektu dla wszystkich taki F .XiFtF

Załóżmy, że istnieje obiektywny estymator. Wywołamy sprzeczność, stosując ją do szczególnie prostego zestawu dystrybucji. Rozważ rozkłady mające następujące właściwości:F=Fx,y,m,ε

  1. ;0x<y1

  2. ;0<ε<(yx)/4

  3. ;x+ε<m<yε

  4. ;Pr(X=x)=Pr(X=y)=(1ε)/2

  5. ; iPr(mεXm+ε)=ε

  6. jest jednorodne na [ m - ε , m + ε ] .F[mε,m+ε]

Te rozkłady prawdopodobieństwa miejsce w każdym z X i Y, i niewielka ilość prawdopodobieństwa symetrycznie wokół m pomiędzy x i y . To sprawia(1ε)/2xymxy wyjątkową medianę F . (Jeśli obawiasz się, że nie jest to rozkład ciągły, to zmień go bardzo wąskim gaussowskim i skróć wynik do [ 0 , 1 ] : argument się nie zmieni.)mF[0,1]

Teraz, dla każdego przypuszczalnego estymatora mediany , łatwe oszacowanie pokazuje, że E [ t ( X 1 , X 2 , , X n ) ] jest ściśle w zakresie ε od średniej z 2 n wartości t ( x 1 , x 2 , , X n ) gdzie x i różnią się we wszystkich możliwych kombinacjach x i y . Możemy jednak różnić mtE[t(X1,X2,,Xn)]ε2nt(x1,x2,,xn)xixympomiędzy i y - ε , zmiana co najmniej ε x , y , m , ε , dla którego to oczekiwanie nie jest równe medianie, QED.x+εyεε(na podstawie warunków 2 i 3). Tak więc istnieje , i stąd odpowiedni rozkład FmFx,y,m,ε

Whuber
źródło
(+1) Niezły dowód. Czy wymyśliłeś to, czy pamiętasz coś ze szkoły?
StasK
4
Oto kolejny dowód: większość zmiennych losowych Bernoulliego ma medianę lub 1 . Oszacowanie z n doświadczeń zależy tylko od średnich wartości estymatora na wierzchołkach [ 0 , 1 ] n o k i ciężary te średnie wartości jest wielomianem p stopnia n . Jeśli jest to estymator nieobciążony, musi mieć średnią wartość 1 dla każdego p > 1 / 2 , i nie więcej niż n + 1 takie wartości p01n[0,1]nkpn1p>1/2n+1p, więc ten wielomian musi być stały ... ale musi wynosić przy niższych wartościach p , więc nie może być również bezstronny. 0p
Douglas Zare
1
@Douglas To świetny dowód. Podejrzewam, że niektórzy ludzie mogą czuć się trochę nieswojo na temat zakresu jej stosowania, chociaż, ponieważ mediana zmiennej Bernoulliego jest dość szczególny, jest zbieżna z jednym z dwóch punktów podparcia (z wyjątkiem, gdy ). Czytelnicy mogą mieć pokusę, aby ogłosić to jako „patologiczne” i spróbować powstrzymać takie potwory, patrząc tylko na ciągłe dystrybucje z wszędzie dodatnimi gęstościami w swoich domenach. Dlatego starałem się pokazać, że takie wysiłki się nie powiodą. p=1/2
whuber
3

Znalezienie obiektywnego estymatora bez modelu parametrycznego byłoby trudne! Ale możesz użyć ładowania początkowego i użyć tego do skorygowania mediany empirycznej, aby uzyskać przybliżony estymator.

kjetil b halvorsen
źródło
Jeśli jest to niemożliwe, czy można to udowodnić? Na przykład, jeśli są niezależnymi próbkami z X, to czy można udowodnić, że f ( X 1 , , X n ) nie może być bezstronny dla jakiegokolwiek wyboru f ? X1,X2,,XnXf(X1,,Xn)f
robinson
2
Myślę, że kjetil mówi, że w ramach nieparametrycznej nie ma metody, która dałaby obiektywne oszacowanie dla każdego możliwego rozkładu. Ale w ramach parametrycznych prawdopodobnie byś mógł. Bootstrapowanie tendencyjnego oszacowania próbki może pozwolić ci oszacować odchylenie i dostosować je, aby uzyskać oszacowanie bootstrapu, które jest prawie bezstronne. To była jego propozycja rozwiązania problemu w ramach nieparametrycznej. Trudne byłoby również udowodnienie, że bezstronna ocena nie jest możliwa.
Michael R. Chernick,
2
Jeśli naprawdę chcesz spróbować udowodnić, że nie ma obiektywnego estymatora, jest książka Fergusona: „Statystyka matematyczna - podejście teoretyczne oparte na decyzji”, która zawiera kilka przykładów tego rodzaju rzeczy!
kjetil b halvorsen
Wyobrażam sobie, że warunki regularności bootstrapu zostaną naruszone przez funkcje dystrybucji, które Whuber rozważa w swojej odpowiedzi. Michael, możesz komentować?
StasK
2
@Stas Jak już wspomniałem, moje funkcje mogą wyglądać bardzo „ładnie” poprzez ich zmiękczenie. Można je również uogólniać na mollifikację dużych skończonych mieszanin atomów. Klasa takich rozkładów jest gęsta we wszystkich rozkładach w przedziale jednostkowym, więc nie sądzę, żeby miała tu miejsce regularność ładowania.
whuber
0

Wierzę, że regresja kwantowa da ci spójny estymator mediany. Biorąc pod uwagę model . I chcesz oszacować med ( y ) = med ( α + u ) = α + med ( u ), ponieważ α jest stałą. Wszystko czego potrzebujesz to med ( u ) = 0, które powinny być prawdziwe, o ile masz niezależne losowania. Jeśli chodzi o bezstronność, nie wiem. Medianie są trudni.Y=α+umed(y)=med(α+u)=α+med(u)αmed(u)=0

Francis
źródło
Zobacz odpowiedź @whuber
Peter Flom - Przywróć Monikę