Taki sam sposób, jak w przypadku zmiennej nieograniczonej - odpowiednie ustawienie limitów integracji lub sumowania.
Scortchi - Przywróć Monikę
2
Jak powiedział @Scortchi. Ale jestem ciekawy, dlaczego myślałeś, że może być inaczej?
Peter Flom - Przywróć Monikę
3
Jeśli nie wiesz nic o zmiennej (w takim przypadku górna granica wariancji może być obliczona na podstawie istnienia granic), dlaczego fakt, że jest ona ograniczona, miałby zostać uwzględniony w obliczeniach?
Glen_b
6
Przydatny górną granicę odchylenia losowej zmiennej przybiera wartości w z prawdopodobieństwem jest i osiąga się przez dyskretną zmienną losową, która przybiera wartości i z równym prawdopodobieństwem . Inną kwestią, o której należy pamiętać, jest to, że istnieje wariancja, podczas gdy nieograniczona zmienna losowa może nie mieć wariancji (niektóre, takie jak zmienne losowe Cauchy'ego, nawet nie mają wartości średniej). [a,b]1b 1(b−a)2/4ab12
Dilip Sarwate,
7
Nie jest dyskretną zmienną losową którego odchylenie równe dokładnie: zmienną losową, która przyjmuje wartości i z równym prawdopodobieństwem . Przynajmniej wiemy, że uniwersalna górna granica wariancji nie może być mniejsza niż . ( b - a )2)4zab12)( b - a )2)4
Dilip Sarwate
Odpowiedzi:
46
Możesz udowodnić nierówność Popoviciu w następujący sposób. Za pomocą notacji i . Zdefiniuj funkcję pomocą
Obliczając pochodną i rozwiązując
stwierdzamy, że osiąga minimum przy ( zauważ, że ).m = inf XM.= sup Xsol
sol( t ) = E [ ( X- t )2)].
sol′
sol′( t ) = - 2 E [ X] + 2 t = 0,
solt = E [ X]sol′ ′> 0
Teraz rozważ wartość funkcji w punkcie specjalnym . Musi być tak, że
Ale
Od i mamy
co oznacza, że
solt = M+ m2)
V a r [X] = g( E [ X] ) ≤ g( M+ m2)).
sol( M+ m2)) = E [ ( X- M+ m2))2)] = 14E [ ( ( X- m ) + ( X- M) )2)].
X−m≥0X−M≤0
((X−m)+(X−M))2≤((X−m)−(X−M))2=(M−m)2,
14E[((X−m)+(X−M))2]≤14E[((X−m)−(X−M))2]=(M−m)24.
V a r [ X ] ≤ ( M - m ) 2
Dlatego udowodniliśmy nierówność Popoviciu
Ładne podejście: dobrze jest oglądać rygorystyczne pokazy tego rodzaju rzeczy.
whuber
22
+1 fajnie! Nauczyłem się statystyki na długo przed pojawieniem się komputerów, a jednym z pomysłów, które zostały w nas wywiercone, było to, że które pozwoliło na obliczenie wariancji poprzez znalezienie sumy kwadratów odchyleń od dowolnego dogodnego punktu a następnie dostosowanie do odchylenia. Tutaj oczywiście ta tożsamość daje prosty dowód na to, że ma minimalną wartość przy bez konieczności pochodnych itp. t g ( t ) t = μ
E[(X−t)2]=E[((X- μ ) - ( t - μ))2]=E[(X- μ)2] + ( t - μ)2)
tg( t )t = μ
Dilip Sarwate
18
Niech będzie rozkładem na . Pokażemy, że jeśli wariancja jest maksymalna, wówczas może nie mieć żadnego wsparcia we wnętrzu, z czego wynika, że to Bernoulli, a reszta jest trywialna.[ 0 , 1 ] F F Ffa[ 0 , 1 ]fafafa
W ramach notacji niech będzie tym nieprzetworzonym momentem (i, jak zwykle, piszemy i dla wariancji).k F μ = μ 1 σ 2 = μ 2 - μ 2μk= ∫10xkrefa( x )kfaμ = μ1σ2)= μ2)- μ2)
Wiemy, że nie ma pełnego wsparcia w jednym punkcie ( w tym przypadku wariancja jest minimalna ). Oznacza to między innymi, że leży dokładnie między a . Aby argumentować sprzecznością, załóżmy, że istnieje jakiś mierzalny podzbiór we wnętrzu dla którego . Bez utraty ogólności możemy założyć (zmieniając na jeśli to konieczne), że : innymi słowy, uzyskuje się przez odcięcie dowolnego część powyżej średniej iμ 0 1 I ( 0 , 1 ) F ( I ) > 0 X 1 - X F ( J = I ∩ ( 0 , μ ] ) > 0 J I Jfaμ01ja( 0 , 1 )fa( Ja) > 0X1 - Xfa( J= Ja∩ ( 0 , μ ] ) > 0jotjajot ma dodatnie prawdopodobieństwo.
Zmieńmy na , biorąc całe prawdopodobieństwo z i ustawiając je na . F ′ J 0 fafa′jot0 W ten sposób zmienia się naμk
μ′k= μk- ∫jotxkrefa( x ) .
W ramach zapisu dla takich całek, skąd[g(x)]=∫Jg(x)dF(x)
Drugi składnik po prawej stronie , nie jest negatywny, ponieważ wszędzie . Pierwszy termin po prawej stronie można przepisaćμ ≥ x J(μ[x]−[x]2)μ≥xJ
μ[x]−[x2]=μ(1−[1])+([μ][x]−[x2]).
Pierwszy wyraz po prawej stronie jest ściśle dodatni, ponieważ (a) i (b) ponieważ zakładamy, że nie jest skoncentrowany w jednym punkcie. Drugi termin jest nieujemny, ponieważ można go przepisać jako a ten integrand jest nieujemny z założeń na i . Wynika z tego, że .[ 1 ] = F ( J ) < 1 F [ ( μ - x ) ( x ) ] μ ≥ x J 0 ≤ x ≤ 1 σ ′ 2 - σ 2 > 0μ>0[1]=F(J)<1F[(μ−x)(x)]μ≥xJ0≤x≤1σ′2−σ2>0
Właśnie pokazaliśmy, że zgodnie z naszymi założeniami zmiana na ściśle zwiększa jego wariancję. Jedynym sposobem, w jaki to nie może się zdarzyć, jest wówczas, gdy całe prawdopodobieństwo jest skoncentrowane w punktach końcowych i , przy (powiedzmy) wartościach odpowiednio i . Jego wariancję można łatwo obliczyć jako równą która jest maksymalna, gdy i wynosi tam .F ' F ' 0 1 1 - P P P ( 1 - p ) p = 1 / 2 1 / 4FF′F′011−ppp(1−p)p=1/21/4
Teraz, gdy jest rozkładem na , recentrujemy i przeskalowujemy go do rozkładu na . Ponowne wyśrodkowanie nie zmienia wariancji, natomiast przeskalowanie dzieli ją przez . Zatem z maksymalną wariancją na odpowiada rozkładowi z maksymalną wariancją na : dlatego jest to rozkład Bernoulliego przeskalowany i przetłumaczony na mający wariancję 2/4 , QED .[ , b ] [ 0 , 1 ], ( b - ) 2 F [ , b ] [ 0 , 1 ] ( 1 / 2 ) [ , b ] ( b - ) 2 / 4F[ a , b ][ 0 , 1 ]( b - a )2)fa[ a , b ][ 0 , 1 ](1/2)[a,b](b−a)2/4
@Zen To wcale nie jest tak eleganckie jak twoje. Zaoferowałem to, ponieważ przez lata myślałem w ten sposób w obliczu znacznie bardziej skomplikowanych nierówności dystrybucyjnych: pytam, w jaki sposób można zmienić prawdopodobieństwo, aby nierówności stały się bardziej ekstremalne. Jako intuicyjna heurystyka jest przydatna. Podejrzewam, że stosując podejścia takie jak przedstawione tutaj, podejrzewam ogólną teorię dowodzenia, że można wyprowadzić dużą klasę takich nierówności, z rodzajem hybrydowego smaku Rachunku Zmienności i technik mnożnikowych Lagrange'a (skończonych wymiarów).
whuber
Idealne: twoja odpowiedź jest ważna, ponieważ opisuje bardziej ogólną technikę, której można użyć do obsługi wielu innych przypadków.
Zen
@whuber powiedział - „Pytam, w jaki sposób można zmienić prawdopodobieństwo, aby nierówności stały się bardziej ekstremalne”. - wydaje się to naturalny sposób myślenia o takich problemach.
Glen_b
Wydaje się, że jest kilka błędów w wyprowadzeniu. Powinno to byćPonadto nie jest równe ponieważ to nie to samo co[ ( μ - x ) ( x ) ] [ μ ] [ x ] - [ x 2 ] [ μ ] [
μ[x]−[x2]=μ(1−[1])[x]+([μ][x]−[x2]).
[(μ−x)(x)][μ][x]−[x2]μ [ x ][μ][x]μ[x]
Leo
13
Jeśli zmienna losowa jest ograniczona do i znamy średnią , wariancja jest ograniczona przez .μ = E [ X ] ( b - μ ) ( μ - a )[a,b]μ=E[X](b−μ)(μ−a)
Rozważmy najpierw przypadek . Zauważ, że dla wszystkich , , dlatego też . Korzystając z tego wyniku,
x ∈ [ 0 , 1 ] x 2 ≤ x E [ X 2 ] ≤ E [ X ] σ 2 = E [ X 2 ] - ( E [ X ] 2 ) = E [ X 2 ] - μ 2 ≤ μ - μ 2 = μ (a=0,b=1x∈[0,1]x2≤xE[X2]≤E[X]
σ2=E[X2]−(E[X]2)=E[X2]−μ2≤μ−μ2=μ(1−μ).
Aby uogólnić na przedziały pomocą , rozważ ograniczone do . Zdefiniuj , który jest ograniczony w . Równolegle , a zatem
gdzie nierówność jest oparta na pierwszym wyniku. Teraz, podstawiając , granica jest równa
który jest pożądanym wynikiem.b > a Y [ a , b ] X = Y - a[a,b]b>aY[a,b] [0,1]Y=(b-a)X+aVar[Y]=(b-a)2Var[X]≤(b-a)2μX(1-μX). μX=μY-aX=Y−ab−a[0,1]Y=(b−a)X+a
Przydatną górną granicą wariancji zmiennej losowej, która przyjmuje wartości w z prawdopodobieństwem jest . Dowód na specjalny przypadek (o co poprosił PO) można znaleźć
tutaj na stronie matematycznej. Można go łatwo dostosować do bardziej ogólnego przypadku. Jak zauważono w moim komentarz powyżej, a także w odpowiedzi podane w niniejszym dokumencie, dyskretną zmienną losową, która przyjmuje wartości i z równym prawdopodobieństwem jest wariancja a zatem nie można znaleźć ściślejszej
ogólnej granicy.σ2[a,b]1σ2≤(b−a)24a=0,b=1ab12(b−a)24
Inną kwestią, o której należy pamiętać, jest to, że zmienna losowa ograniczona ma wariancję skończoną, podczas gdy w przypadku nieograniczonej zmiennej losowej wariancja może nie być skończona, aw niektórych przypadkach nawet niemożliwa do zdefiniowania. Na przykład,
średniej nie można zdefiniować dla zmiennych losowych Cauchy'ego , a więc nie można zdefiniować wariancji (jako oczekiwania kwadratowego odchylenia od średniej).
To był tylko komentarz, ale mógłbym również dodać, że ta odpowiedź nie odpowiada na zadane pytanie.
Aksakal
@Aksakal So ??? Juho odpowiadał na nieco inne i znacznie niedawno zadane pytanie. To nowe pytanie zostało połączone z powyższym, na które odpowiedziałem dziesięć miesięcy temu.
Dilip Sarwate
0
czy jesteś pewien, że ogólnie tak jest - zarówno w przypadku dystrybucji ciągłej, jak i dyskretnej? Czy możesz podać link do innych stron? Dla ogólnego rozróżnienia na banalne jest wykazanie, że
Mogę sobie wyobrazić, że istnieją ostrzejsze nierówności ... Czy potrzebujesz współczynnika dla swojego wyniku?V a r ( X ) = E [ ( X - E [ X ] ) 2 ] ≤ E [ ( b - a ) 2 ] = ( b - a ) 2 . 1 / 4[ a , b ]
V.a r ( X) = E[ ( X- E[ X] )2)] ≤ E[ ( b - a )2)] = ( b - a )2).
1 / 4
Z drugiej strony można go znaleźć ze współczynnikiem pod nazwą Popoviciu's_inequality na wikipedii.1 / 4
Ten artykuł wygląda lepiej niż artykuł w Wikipedii ...
Dziękujemy za nadanie nazwy temu! „Nierówność Popoviciu” jest właśnie tym, czego potrzebowałem.
Adam Russell
2
Ta odpowiedź zawiera kilka niepoprawnych sugestii: ma rzeczywiście rację. Odniesienie do nierówności Popoviciu będzie działało, ale ściśle mówiąc, odnosi się tylko do dystrybucji ze skończonym wsparciem (w szczególności, które nie obejmuje ciągłych dystrybucji). Argument ograniczający załatwi sprawę, ale tutaj potrzebne jest coś dodatkowego. 1 / 4
whuber
2
Rozkład ciągły może zbliżyć się do dyskretnego (w kategoriach cdf) arbitralnie ściśle (np. Skonstruować ciągłą gęstość z danego dyskretnego poprzez umieszczenie małego jądra w kształcie Beta (4,4) wyśrodkowanego w każdym punkcie masy - odpowiedniego obszaru - i pozwól standardowemu odchyleniu każdego takiego jądra skurczyć się do zera, utrzymując stałą powierzchnię. Omawiane tutaj dyskretne granice będą również działać jako granice ciągłych rozkładów. Oczekuję, że myślisz o ciągłych unimodalnych rozkładach ... które rzeczywiście mają różne górne granice.
Glen_b
2
Cóż ... moja odpowiedź była najmniej pomocna, ale zostawiłbym ją tutaj z powodu miłych komentarzy. Na zdrowie, R
Odpowiedzi:
Możesz udowodnić nierówność Popoviciu w następujący sposób. Za pomocą notacji i . Zdefiniuj funkcję pomocą Obliczając pochodną i rozwiązując stwierdzamy, że osiąga minimum przy ( zauważ, że ).m = inf X M.= sup X sol sol( t ) = E [ ( X- t )2)]. sol′ sol′( t ) = - 2 E [ X] + 2 t = 0, sol t = E [ X] sol′ ′> 0
Teraz rozważ wartość funkcji w punkcie specjalnym . Musi być tak, że Ale Od i mamy co oznacza, żesol t = M+ m2) V a r [X] = g( E [ X] ) ≤ g( M+ m2)). sol( M+ m2)) = E [ ( X- M+ m2))2)] = 14E [ ( ( X- m ) + ( X- M) )2)]. X−m≥0 X−M≤0 ((X−m)+(X−M))2≤((X−m)−(X−M))2=(M−m)2, 14E[((X−m)+(X−M))2]≤14E[((X−m)−(X−M))2]=(M−m)24. V a r [ X ] ≤ ( M - m ) 2
Dlatego udowodniliśmy nierówność Popoviciu
Var[X]≤(M−m)24.
źródło
Niech będzie rozkładem na . Pokażemy, że jeśli wariancja jest maksymalna, wówczas może nie mieć żadnego wsparcia we wnętrzu, z czego wynika, że to Bernoulli, a reszta jest trywialna.[ 0 , 1 ] F F Ffa [ 0 , 1 ] fa fa fa
W ramach notacji niech będzie tym nieprzetworzonym momentem (i, jak zwykle, piszemy i dla wariancji).k F μ = μ 1 σ 2 = μ 2 - μ 2μk= ∫10xkrefa( x ) k fa μ = μ1 σ2)= μ2)- μ2)
Wiemy, że nie ma pełnego wsparcia w jednym punkcie ( w tym przypadku wariancja jest minimalna ). Oznacza to między innymi, że leży dokładnie między a . Aby argumentować sprzecznością, załóżmy, że istnieje jakiś mierzalny podzbiór we wnętrzu dla którego . Bez utraty ogólności możemy założyć (zmieniając na jeśli to konieczne), że : innymi słowy, uzyskuje się przez odcięcie dowolnego część powyżej średniej iμ 0 1 I ( 0 , 1 ) F ( I ) > 0 X 1 - X F ( J = I ∩ ( 0 , μ ] ) > 0 J I Jfa μ 0 1 ja ( 0 , 1 ) fa( Ja) > 0 X 1 - X fa( J= Ja∩ ( 0 , μ ] ) > 0 jot ja jot ma dodatnie prawdopodobieństwo.
Zmieńmy na , biorąc całe prawdopodobieństwo z i ustawiając je na . F ′ J 0fa fa′ jot 0 W ten sposób zmienia się naμk
W ramach zapisu dla takich całek, skąd[g(x)]=∫Jg(x)dF(x)
Obliczać
Drugi składnik po prawej stronie , nie jest negatywny, ponieważ wszędzie . Pierwszy termin po prawej stronie można przepisaćμ ≥ x J(μ[x]−[x]2) μ≥x J
Pierwszy wyraz po prawej stronie jest ściśle dodatni, ponieważ (a) i (b) ponieważ zakładamy, że nie jest skoncentrowany w jednym punkcie. Drugi termin jest nieujemny, ponieważ można go przepisać jako a ten integrand jest nieujemny z założeń na i . Wynika z tego, że .[ 1 ] = F ( J ) < 1 F [ ( μ - x ) ( x ) ] μ ≥ x J 0 ≤ x ≤ 1 σ ′ 2 - σ 2 > 0μ>0 [1]=F(J)<1 F [(μ−x)(x)] μ≥x J 0≤x≤1 σ′2−σ2>0
Właśnie pokazaliśmy, że zgodnie z naszymi założeniami zmiana na ściśle zwiększa jego wariancję. Jedynym sposobem, w jaki to nie może się zdarzyć, jest wówczas, gdy całe prawdopodobieństwo jest skoncentrowane w punktach końcowych i , przy (powiedzmy) wartościach odpowiednio i . Jego wariancję można łatwo obliczyć jako równą która jest maksymalna, gdy i wynosi tam .F ' F ' 0 1 1 - P P P ( 1 - p ) p = 1 / 2 1 / 4F F′ F′ 0 1 1−p p p(1−p) p=1/2 1/4
Teraz, gdy jest rozkładem na , recentrujemy i przeskalowujemy go do rozkładu na . Ponowne wyśrodkowanie nie zmienia wariancji, natomiast przeskalowanie dzieli ją przez . Zatem z maksymalną wariancją na odpowiada rozkładowi z maksymalną wariancją na : dlatego jest to rozkład Bernoulliego przeskalowany i przetłumaczony na mający wariancję 2/4 , QED .[ , b ] [ 0 , 1 ], ( b - ) 2 F [ , b ] [ 0 , 1 ] ( 1 / 2 ) [ , b ] ( b - ) 2 / 4F [ a , b ] [ 0 , 1 ] ( b - a )2) fa [ a , b ] [ 0 , 1 ] (1/2) [a,b] (b−a)2/4
źródło
Jeśli zmienna losowa jest ograniczona do i znamy średnią , wariancja jest ograniczona przez .μ = E [ X ] ( b - μ ) ( μ - a )[a,b] μ=E[X] (b−μ)(μ−a)
Rozważmy najpierw przypadek . Zauważ, że dla wszystkich , , dlatego też . Korzystając z tego wyniku, x ∈ [ 0 , 1 ] x 2 ≤ x E [ X 2 ] ≤ E [ X ] σ 2 = E [ X 2 ] - ( E [ X ] 2 ) = E [ X 2 ] - μ 2 ≤ μ - μ 2 = μ (a=0,b=1 x∈[0,1] x2≤x E[X2]≤E[X]
Aby uogólnić na przedziały pomocą , rozważ ograniczone do . Zdefiniuj , który jest ograniczony w . Równolegle , a zatem gdzie nierówność jest oparta na pierwszym wyniku. Teraz, podstawiając , granica jest równa który jest pożądanym wynikiem.b > a Y [ a , b ] X = Y - a[a,b] b>a Y [a,b] [0,1]Y=(b-a)X+aVar[Y]=(b-a)2Var[X]≤(b-a)2μX(1-μX). μX=μY-aX=Y−ab−a [0,1] Y=(b−a)X+a
źródło
Na żądanie @ user603 ....
Przydatną górną granicą wariancji zmiennej losowej, która przyjmuje wartości w z prawdopodobieństwem jest . Dowód na specjalny przypadek (o co poprosił PO) można znaleźć tutaj na stronie matematycznej. Można go łatwo dostosować do bardziej ogólnego przypadku. Jak zauważono w moim komentarz powyżej, a także w odpowiedzi podane w niniejszym dokumencie, dyskretną zmienną losową, która przyjmuje wartości i z równym prawdopodobieństwem jest wariancja a zatem nie można znaleźć ściślejszej ogólnej granicy.σ2 [a,b] 1 σ2≤(b−a)24 a=0,b=1 a b 12 (b−a)24
Inną kwestią, o której należy pamiętać, jest to, że zmienna losowa ograniczona ma wariancję skończoną, podczas gdy w przypadku nieograniczonej zmiennej losowej wariancja może nie być skończona, aw niektórych przypadkach nawet niemożliwa do zdefiniowania. Na przykład, średniej nie można zdefiniować dla zmiennych losowych Cauchy'ego , a więc nie można zdefiniować wariancji (jako oczekiwania kwadratowego odchylenia od średniej).
źródło
czy jesteś pewien, że ogólnie tak jest - zarówno w przypadku dystrybucji ciągłej, jak i dyskretnej? Czy możesz podać link do innych stron? Dla ogólnego rozróżnienia na banalne jest wykazanie, że Mogę sobie wyobrazić, że istnieją ostrzejsze nierówności ... Czy potrzebujesz współczynnika dla swojego wyniku?V a r ( X ) = E [ ( X - E [ X ] ) 2 ] ≤ E [ ( b - a ) 2 ] = ( b - a ) 2 . 1 / 4[ a , b ]
Z drugiej strony można go znaleźć ze współczynnikiem pod nazwą Popoviciu's_inequality na wikipedii.1 / 4
Ten artykuł wygląda lepiej niż artykuł w Wikipedii ...
Dla jednolitego rozkładu utrzymuje, że
źródło