Odwrotna funkcja wariancji

9

Czy dla danej liczby stałej (np. 4) można znaleźć rozkład prawdopodobieństwa dla , tak że mamy ?rXVar(X)=r

amiref
źródło
1
Nie, chyba że masz dodatkowe informacje.
Hemant Rupani,
@Hemant Rupani, jakie dodatkowe informacje są potrzebne?
amiref
1
dowolna natura zmiennej losowej „X”…
Hemant Rupani
3
Proponuję zmodyfikować swoje pytanie, aby zastąpić „wartość dla X” przez „rozkład dla X” - jeśli X ma tylko jedną wartość, to X ma rozkład zdegenerowany i będzie miał wariancję zero.
Silverfish,
1
O ile nie jest ujemne, odpowiedź brzmi oczywiście tak, wariancja może być dowolną liczbą dodatnią. r
dsaxton,

Odpowiedzi:

13

Ostrożnie biorąc pod uwagę przypadki dla : jeśli wówczas rozkład jest zdegenerowany, ale może mieć dowolną średnią. Oznacza to, że i dla dowolnego . Możemy więc znaleźć wiele możliwych dystrybucji dla , ale są one indeksowane i całkowicie określone przez .rr=0XPr(X=μ)=1Pr(X=c)=0cμXμR

Jeśli , nie można znaleźć rozkładu, ponieważ .r<0Var(X)=E(XμX)20

Dla , odpowiedź będzie zależeć od tego, co znane jest dodatkowa informacja o . Na przykład, jeśli wiadomo, że ma średnią , to dla dowolnego i możemy znaleźć rozkład z tymi momentami, biorąc . Nie jest to unikalne rozwiązanie problemu dopasowania średniej i wariancji, ale jest to jedyne normalnie rozłożone rozwiązanie (i spośród wszystkich możliwych rozwiązań, to jest to, które maksymalizuje entropię, jak zauważa Daniel). Jeśli chcesz dopasować np. Trzeci moment centralny lub wyższy, musisz rozważyć szerszy zakres rozkładów prawdopodobieństwa.r>0XXμμRr>0XN(μ,r)

Załóżmy, że zamiast tego mieliśmy trochę informacji o rozkładzie a nie o jego momentach. Na przykład, jeśli wiemy, że podąża za rozkładem Poissona, wówczas unikalnym rozwiązaniem byłoby . Jeśli wiemy, że ma rozkład wykładniczy, to znowu jest unikalne rozwiązanie , w którym znaleźliśmy parametr rozwiązując .XXXPoisson(r)XXExponential(1r)Var(X)=r=1λ2

W innych przypadkach możemy znaleźć całą rodzinę rozwiązań. Jeśli wiemy, że ma rozkład prostokątny (ciągły jednolity), wówczas możemy znaleźć unikalną szerokość dla rozkładu, rozwiązując . Ale będzie cała rodzina rozwiązań, sparametryzowanych przez - wszystkie dystrybucje w tym zestawie są tłumaczeniem siebie nawzajem. Podobnie, jeśli jest normalny to działałaby dowolna dystrybucja (więc mamy cały zestaw rozwiązań indeksowanych przez , co znowu może być dowolną liczbą rzeczywistą, a rodzina znowu jest tłumaczeniem od siebie). GdybyXwVar(X)=r=w212XU(a,a+w)aRXXN(μ,r)μX podąża za rozkładem gamma, następnie za pomocą parametryzacji w skali kształtu możemy uzyskać całą rodzinę rozwiązań, sparametryzowane przez . Członkowie tej rodziny nie tłumaczą się nawzajem. Aby pomóc w wizualizacji, jak może wyglądać „rodzina rozwiązań”, oto kilka przykładów normalnych rozkładów indeksowanych według , a następnie rozkładów gamma indeksowanych według , wszystkie o wariancji równej cztery, odpowiadającej przykładowi w Twoje pytanie.XGamma(rθ2,θ)θ>0μθr=4

Rozkłady normalne z wariancją czwartą Rozkłady gamma z wariancją czwartą

Z drugiej strony, dla niektórych rozkładów znalezienie lub rozwiązanie może być niemożliwe, w zależności od wartości . Na przykład, jeśli musi być zmienną Bernoulliego, to dla istnieją dwa możliwe rozwiązania ponieważ istnieją dwa prawdopodobieństwa które rozwiązują równanie , a te dwa prawdopodobieństwa są komplementarne, tj. . Dla istnieje tylko unikalne rozwiązanie , a dla brak rozkładu Bernoulliego ma wystarczająco wysoką wariancję.rX0r<0.25XBernoulli(p)pVar(X)=r=p(1p)p1+p2=1r=0.25p=0.5r>0.25

Myślę, że powinienem również wspomnieć o sprawie . Istnieją rozwiązania dla tego przypadku zbyt, na przykład Studenta dystrybucja z dwoma stopniami swobody.r=t

Kod R dla wykresów

require(ggplot2)

x.df  <- data.frame(x = rep(seq(from=-8, to=8, length=100), times=5),
    mu = rep(c(-4, -2, 0, 2, 4), each=100))
x.df$pdf <- dnorm(mean=x.df$mu, x.df$x)
ggplot(x.df, aes(x=x, y=pdf, group=factor(mu), colour=factor(mu))) + theme_bw() + 
    geom_line(size=1) + scale_colour_brewer(name=expression(mu), palette="Set1") +
    theme(legend.key = element_blank()) + ggtitle("Normal distributions with variance 4")

x.df  <- data.frame(x = rep(seq(from=0, to=20, length=1000), times=5),
    theta = rep(c(0.25, 0.5, 1, 2, 4), each=1000))
x.df$pdf <- dgamma(x.df$x, shape=4/(x.df$theta)^2, scale=x.df$theta)
ggplot(x.df, aes(x=x, y=pdf, group=factor(theta), colour=factor(theta))) + theme_bw() + 
    geom_line(size=1) + scale_colour_brewer(name=expression(theta), palette="Set1") +
    theme(legend.key = element_blank()) + ggtitle("Gamma distributions with variance 4") +
    coord_cartesian(ylim = c(0, 1)) 
Silverfish
źródło
17

Zakładając, że masz na myśli „czy możliwe jest znalezienie rozkładu prawdopodobieństwa dla ”, odpowiedź brzmi tak, ponieważ nie określono żadnych kryteriów, które musi spełniać. W rzeczywistości istnieje nieskończona liczba możliwych dystrybucji, które spełniają ten warunek. Rozważmy rozkład normalny, . Możesz ustawić a może przyjąć dowolną wartość - wtedy będziesz miał zgodnie z wymaganiami.XXN(x;μ,σ2)σ2=rμVar[X]=r

W rzeczywistości rozkład normalny jest pod tym względem raczej szczególny, ponieważ jest to maksymalny rozkład prawdopodobieństwa entropii dla danej średniej i wariancji.

Daniel
źródło
masz rację, poprawiłem to. czy mógłbyś wyjaśnić więcej?
amiref
@AmirEf Co jest niejasne?
Daniel
6
Nie jest jasne, co jeszcze Daniel powinien wyjaśnić; wydaje się, że odpowiedź tutaj dotyczy wszystkiego, co zawiera twoje pytanie.
Glen_b
15

To pytanie można interpretować w sposób, który czyni je interesującym i nie do końca trywialnym. Biorąc pod uwagę coś który wygląda jak zmienna losowa, w jakim stopniu możliwe jest przypisanie prawdopodobieństw do jego wartości (lub przesunięcie istniejących prawdopodobieństw wokół) w taki sposób, że jego wariancja jest równa pewnej z góry określonej liczbie ? Odpowiedź jest taka, że wszystkie możliwe wartości jest dopuszczalna, maksymalnie limit określony przez zakres .Xrr0X

Potencjalne zainteresowanie taką analizą polega na zmianie miernika prawdopodobieństwa przy jednoczesnym utrzymaniu stałej zmiennej losowej w celu osiągnięcia określonego celu. Chociaż ta aplikacja jest prosta, wyświetla niektóre idee leżące u podstaw twierdzenia Girsanova , wynik fundamentalny w finansach matematycznych.


Powtórzmy to pytanie w sposób rygorystyczny, jednoznaczny. Przypuszczać

X:(Ω,S)R

jest funkcją mierzalną zdefiniowaną w przestrzeni miary pomocą sigma-algebra . Kiedy dla danej liczby rzeczywistej można znaleźć miarę prawdopodobieństwa na tym obszarze, dla którego ?ΩSr>0PVar(X)=r

Uważam, że odpowiedź jest taka, że jest to możliwe, gdy . sup(X)inf(X)>2r (Równość może zostać utrzymana, jeśli supremum i infimum zostaną osiągnięte: to znaczy, że faktycznie są one maksymalnym i minimalnym ) Gdy lub , ten warunek nie nakłada ograniczenia na , a następnie możliwe są wszystkie nieujemne wartości wariancji.Xsup(X)=inf(X)=r

Dowodem jest konstrukcja. Zacznijmy od prostej wersji, aby zadbać o szczegóły i sprecyzować podstawowy pomysł, a następnie przejść do faktycznej konstrukcji.

  1. Niech będzie na obrazie : oznacza to, że istnieje dla którego . Zdefiniuj ustawioną funkcję aby była wskaźnikiem : to znaczy jeśli i po .xXωxΩX(ωx)=xP:S[0,1]ωxP(A)=0ωxAP(A)=1ωxA

    Ponieważ , oczywiście spełnia pierwsze dwa aksjomaty prawdopodobieństwa . Konieczne jest wykazanie, że spełnia trzeci; mianowicie, że jest to dodatek sigma. Ale jest to prawie tak oczywiste: ilekroć jest skończonym lub liczebnie nieskończonym zestawem wzajemnie wykluczających się zdarzeń, wówczas żadne z nich nie zawiera takim przypadku dla wszystkich lub dokładnie jeden z nich zawiera , w którym to przypadku dla niektórych konkretnych a w innym przypadku dla wszystkichP(Ω)=1P{Ei,i=1,2,}ωxP(Ei)=0iωxP(Ej)=1jP(Ei)=0ij. W obu przypadkach

    P(iEi)=iP(Ei)

    ponieważ obie strony mają albo albo obie .01

    Ponieważ koncentruje całe prawdopodobieństwo na , rozkład jest skoncentrowany na a musi mieć zerową wariancję.PωxXxX

  2. Niech będzie dwiema wartościami z zakresu ; to znaczy i . W sposób podobny do poprzedniego kroku zdefiniuj miarę jako średnią ważoną wskaźników i . Używać nieujemne grubości i dla być ustalona. Tak jak poprzednio, stwierdzamy, że będąc wypukłą kombinacją miar wskaźników omówionych w (1) - jest miarą prawdopodobieństwa. Rozkład w odniesieniu do tej miary to Bernoullix1x2XX(ω1)=x1X(ω2)=x2Pω1ω21pppPX(p)dystrybucja skalowana przez i przesunięta o . Ponieważ wariancja rozkładu Bernoulliego wynosi , wariancja musi wynosić .x2x1x1(p)p(1p)X(x2x1)2p(1p)

Bezpośrednią konsekwencją (2) jest to, że każdy dla którego istnieje w zakresie i dla któregorx1x2X0p<1

r=(x2x1)2p(1p)

może być wariancja . Ponieważ , oznacza toX0p(1p)1/4

2r=4rrp(1p)=(x2x1)2=x2x1sup(X)inf(X),

z zachowaniem równości wtedy i tylko wtedy, gdy ma maksimum i minimum.X

I odwrotnie, jeśli przekracza tę granicę , wówczas żadne rozwiązanie nie jest możliwe, ponieważ wiemy już, że wariancja dowolnej ograniczonej zmiennej losowej nie może przekraczać jednej czwartej kwadrat jego zasięgu.r(sup(X)inf(X))2/4

Whuber
źródło
3
Koleś, myślę, że jesteś na innym poziomie niż PO.
Mark L. Stone,
4
@ Mark Prawdopodobnie. (Wydaje mi się, że wyczułeś tutaj powiew bardzo suchego humoru.) Ale każdy, kto zastosuje znacznik statystyki matematycznej do swojego postu, powinien spodziewać się takich rzeczy :-).
whuber
2
Przypomina mi to, kiedy wziąłem klasę 4 uczniów od nieżyjącego już prof. Samuela Karlina (między innymi ze sławy Karlina i Taylora) na temat „Total Positivity”. Temat teorii gier jakoś się pojawił. Powiedział, och, teoria gier. Masz dwie nieujemne sigma-skończone miary .... Teraz wyobraź sobie, że wprowadza teorię gier w ten sposób dla studentów pierwszego roku ekonomii na uniwersytecie sztuk humanistycznych. Właśnie o tym pomyślał twój post.
Mark L. Stone,
@Mark Zrozumiał. Nie można tego zrobić i odnieść sukces. Jak zauważyłeś, piszę tutaj dla (części) ogólnych czytelników, a nie dla konkretnego. Z drugiej strony przedmiot abstrakcyjny nie jest trudny (na tym podstawowym poziomie) i okazał się dostępny dla zmotywowanych podklasów na wyższych uczelniach artystycznych. Zobacz na przykład komentarze na stronie stats.stackexchange.com/a/94876 .
whuber
4
@ MarkL.Stone Odpowiedzi są czymś więcej niż tylko bezpośrednim pytającym (SE ma być repozytorium dobrych pytań i dobrych odpowiedzi cennych dla późniejszych osób z podobnymi pytaniami), a my już tutaj mamy odpowiedzi na bardziej elementarny widok pytania . Niektórzy inni czytelnicy mogą uzyskać coś z mniej elementarnego podejścia do rzeczy, więc różnorodność stylów i poziomów odpowiedzi sprawia, że ​​pytanie jest przydatne dla większej liczby osób.
Glen_b
10

Tak, można znaleźć taką dystrybucję. W rzeczywistości możesz wziąć dowolną dystrybucję ze skończoną wariancją i skalować, aby dopasować ją do swojego warunku, ponieważ

Var[cX]=c2Var[X]

Na przykład rozkład równomierny w przedziale ma wariancję: Stąd rozkład równomierny w przedziale będzie miał wariancję .[0,1]

σ2=112
[0,112r]r

W rzeczywistości jest to powszechny sposób dodawania parametrów do niektórych dystrybucji, takich jak Student t. Ma tylko jeden parametr, - stopnie swobody. Kiedy rozkład jest zbieżny ze standardową normalną. Ma kształt dzwonu i wygląda bardzo normalnie, ale ma grubsze ogony. Dlatego często jest stosowany jako alternatywa dla normalnego rozkładu, gdy ogony są grube. Jedynym problemem jest to, że rozkład Gaussa ma dwa parametry. Tak więc pojawia się skalowana wersja Studenta t, która jest czasami nazywana rozkłademt skali lokalizacji” . To bardzo prosta transformacja: , gdzie to lokalizacja i skala. Teraz możesz ustawić skalę, aby nowa zmiennaννξ=tμsμ,sξ będzie mieć dowolną wymaganą wariancję i będzie mieć kształt rozkładu t Studenta.

Aksakal
źródło