Wariancja iloczynu skorelowanych zmiennych losowych k

12

Jaka jest wariancja iloczynu skorelowanych zmiennych losowych ?k

Jafar Mansouri
źródło

Odpowiedzi:

12

Więcej informacji na ten temat, niż zapewne potrzebujesz, można znaleźć w Goodman (1962): „Wariancja iloczynu zmiennych losowych K” , która wyprowadza wzory zarówno dla niezależnych zmiennych losowych, jak i potencjalnie skorelowanych zmiennych losowych, wraz z pewnymi przybliżeniami. We wcześniejszym artykule ( Goodman, 1960 ) wyprowadzono wzór na iloczyn dokładnie dwóch zmiennych losowych, który jest nieco prostszy (choć nadal dość gnarny), więc może to być lepsze miejsce na rozpoczęcie, jeśli chcesz zrozumieć pochodną .

Jednak dla kompletności wygląda to tak.

Dwie zmienne

Załóż, że:

  • yx i są dwie wartości losowychy
  • YX i są ich (niezerowymi) oczekiwaniamiY
  • V ( y )V(x) i to ich wariancjeV(y)
  • δ yδx=(xX)/X (i podobnie dla )δy
  • Di,j=E[(δx)i(δy)j]
  • Δ yΔx=xX (i podobnie dla )Δy
  • Ei,j=E[(Δx)i(Δy)j]
  • V ( x ) / X 2 G ( Y )G(x) jest kwadratowym współczynnikiem zmienności: (podobnie dla )V(x)/X2G(Y)

Następnie: lub równoważnie:

V.(xy)=(XY)2)[sol(y)+sol(x)+2)re1,1+2)re1,2)+2)re2),1+re2),2)-re1,12)]

V.(xy)=X2)V.(y)+Y2)V.(x)+2)XYmi1,1+2)Xmi1,2)+2)Ymi2),1+mi2),2)-mi1,12)

Więcej niż dwie zmienne

Artykuł z 1960 r. Sugeruje, że jest to ćwiczenie dla czytelnika (które wydaje się motywować artykuł z 1962 r.!).

Notacja jest podobna, z kilkoma rozszerzeniami:

  • x y(x1,x2),xn) są zmiennymi losowymi zamiast ixy
  • M.=mi(ja=1kxja)
  • ZA=(M./ja=1kXja)-1
  • i = 1 , 2 , ksja = 0, 1 lub 2 dlaja=1,2),k
  • ( s 1 , s 2 , s k )u = liczba 1 w(s1,s2),sk)
  • ( s 1 , s 2 , s k )m = liczba 2(s1,s2),sk)
  • m = 0 2 u m > 1re(u,m)=2)u-2) dla i dla ,m=02)um>1
  • do(s1,s2),,sk)=re(u,m)mi(ja=1kδxjasja)
  • 3 k - k - 1 ( s 1 , s 2 , s k ) 2 m + u > 1s1sk oznacza sumę zestawów gdzie3)k-k-1(s1,s2),sk)2)m+u>1

Wreszcie, w końcu:

V.(i=1kxja)=Xja2)(s1skdo(s1,s2)sk)-ZA2))

Zobacz dokumenty, aby uzyskać szczegółowe informacje i nieco łatwiejsze przybliżenia!

Matt Krause
źródło
pamiętaj, że powyższa odpowiedź Matta Krause zawiera błąd, a także sam papier. W definicji funkcji C (s1, ..., sk) powinien to być produkt zamiast sumy.
Nicolas Gisler,
Czy mógłbyś rozwinąć trochę więcej ...? „Ponieważ ja - anonimowa osoba z Internetu - tak mówię” nie jest tak naprawdę odpowiedzią ...
Tim
Jeśli spróbujesz uzyskać wariancję var (x * y) dla niezależnych zmiennych losowych, za pomocą wzoru na dowolne k możesz zobaczyć, że tylko iloczyn, a nie suma, daje poprawną odpowiedź. Ponadto, jeśli spojrzysz na papier, możesz go również zobaczyć, na stronie 59 papieru (przynajmniej w mojej wersji) użył produktu zamiast sumy.
Nicolas Gisler,
1
W przypadku dwóch zmiennych losowych w tej odpowiedzi @macro można znaleźć łatwiejszą do odczytania formułę wariancji iloczynu dwóch skorelowanych zmiennych losowych . Ta odpowiedź wskazuje również na zasadniczy problem w a mianowicie gąszcz notacji kryje zasadniczy fakt, że istnieją w nim terminy, których wartości nie można ustalić, chyba że znamy cov lub wystarczająco o gęstości połączenia dwóch zmiennych losowych, aby określić tę wielkość. ( x 2 , y 2 )
V(xy)=X2V(y)+Y2V(x)+2XYE1,1+2XE1,2+2YE2,1+E2,2E1,12,
(x2,y2)
Dilip Sarwate
Sugestia edycyjna, która naprawdę powinna być komentarzem, sugerowała, że ​​oryginalny tekst zawierał literówkę, w której suma i produkt zostały pomieszane i ta odpowiedź powinna zostać zmieniona. Zobacz stats.stackexchange.com/review/suggested-edits/83662
Silverfish,
4

Wystarczy dodać do niesamowitej odpowiedzi Matta Krause'a (w rzeczywistości łatwo stąd ją uzyskać). Jeśli x, y są niezależne, to

mi1,1=mi[(x-mi[x])(y-mi[y])]=doov(x,y)=0mi1,2)=mi[(x-mi[x])(y-mi[y])2)]=mi[x-mi(x)]mi[(y-mi[y])2)]=(mi[x]-mi[x])mi[(y-mi[y])2)]=0mi2),1=0mi2),2)=mi[(x-mi[x])2)(y-mi[y])2)]=mi[(x-mi[x])2)]mi[(y-mi[y])2)=V.[x]V.[y]V.[xy]=mi[x]2)V.[y]+mi[y]2)V.[x]+V.[x]V.[y]
Ananda
źródło
1
Wynik dla przypadku niezależnych zmiennych losowych zostało omówione tutaj . n
Dilip Sarwate
3

Oprócz ogólnej formuły podanej przez Matta warto zauważyć, że istnieje nieco bardziej wyraźna formuła dla losowych zmiennych Gaussa o średniej zerowej. Wynika to z twierdzenia Isserlisa , patrz także Wyższe momenty dla wyśrodkowanego wielowymiarowego rozkładu normalnego.

Załóżmy, że ma wielowymiarowy rozkład normalny ze średnią 0 i macierzą kowariancji . Jeśli liczba zmiennych jest nieparzysta, i gdzie oznacza sumę na wszystkich partycjach w rozłącznych par gdzie każdy termin jest produktem odpowiednich i gdzie Σ k E ( i x i ) = 0 V ( i x i ) = E ( i x 2 i ) = ˜ Σ i , j Σ { 1 , , 2 k } k { i , j } k(x1,,xk)Σkmi(jaxja)=0

V.(jaxja)=mi(jaxja2))=Σ~ja,jot
Σ{1,,2)k}k{ja,jot}k ˜ Σ =( Σ Σ Σ Σ )(x1,,xk,x1,,xk)kV(ixi)= ˜ Σ i,j-(Σi,j)2. k=2Σ~ja,jot
Σ~=(ΣΣΣΣ)
to macierz kowariancji dla . Jeśli jest parzyste, W przypadku otrzymujemy Jeśli , otrzymujemy gdzie w sumie jest 15 wyrażeń.(x1,,xk,x1,,xk)k
V.(jaxja)=Σ~ja,jot-(Σja,jot)2).
k=2)
V.(x1x2))=Σ1,1Σ2),2)+2)(Σ1,2))2)-Σ1,2)2)=Σ1,1Σ2),2)+(Σ1,2))2).
k=3)
V.(x1x2)x3))=Σja,jotΣk,lΣr,t,

W rzeczywistości możliwe jest wdrożenie ogólnej formuły. Najtrudniejszą częścią wydaje się być obliczenie wymaganych partycji. W R można to zrobić za pomocą funkcji setpartsz pakietu partitions. Za pomocą tego pakietu nie było problemu z wygenerowaniem 2 027 025 partycji dla , 34 459 425 partycji dla można również wygenerować, ale nie 654 729 075 partycji dla (na moim laptopie 16 GB).k = 9 k = 10k=8k=9k=10

Warto zwrócić uwagę na kilka innych rzeczy. Po pierwsze, dla zmiennych Gaussa o niezerowej wartości powinno być możliwe wyprowadzenie wyrażenia również z twierdzenia Isserlisa. Po drugie, nie jest dla mnie jasne, czy powyższy wzór jest odporny na odchylenia od normalności, to znaczy, czy można go zastosować jako przybliżenie, nawet jeśli zmienne nie są wielowymiarowe normalnie rozłożone. Po trzecie, chociaż powyższe formuły są prawidłowe, wątpliwe jest, jak wiele wariancji mówi o dystrybucji produktów. Nawet dla rozkład produktu jest dość leptokurtyczny, a dla większego szybko staje się wyjątkowo leptokurtyczny.kk=2)k

NRH
źródło
Zgrabne podejście! Jeśli chodzi o to, co jest warte, formuła w mojej odpowiedzi ma również kombinatoryczny wysadzenie: sumowanie nad C obejmuje sumowanie wyrażeń . O(3)k)
Matt Krause,