Biorąc pod uwagę Zmienna losowa z rozkładu prawdopodobieństwa , w korelacji macierzy jest dodatnia pół- określony, tj. jego wartości własne są dodatnie lub zerowe.
Interesują mnie warunki na które są konieczne i / lub wystarczające, aby miał zero wartości własnych. Na przykład wystarczającym warunkiem jest to, że zmienne losowe nie są niezależne: dla niektórych liczb rzeczywistych . Na przykład, jeśli , a następnie jest wektorem własnym o zerowej wartości własnej. Jeżeli mamy niezależne ograniczenia liniowe na tego typu, oznaczałoby to zero wartości własnych.
Istnieje co najmniej jedna dodatkowa (ale trywialna) możliwość, gdy dla niektórych a (tj. P ( X 1 , … , X n ) ∝ δ ( X a - E [ ), ponieważ w tym przypadku C i j ma kolumnę i wiersz zer: C i a = C a i = 0 , . Ponieważ nie jest to tak naprawdę interesujące, zakładam, że rozkład prawdopodobieństwa nie ma takiej postaci.
Moje pytanie brzmi: czy ograniczenia liniowe to jedyny sposób na wywołanie zerowych wartości własnych (jeśli zabronimy trywialnego wyjątku podanego powyżej), czy też nieliniowe ograniczenia zmiennych losowych mogą również generować zerowe wartości własne ?
źródło
Odpowiedzi:
Być może poprzez uproszczenie zapisu możemy wydobyć podstawowe idee. Okazuje się, że nie potrzebujemy angażować oczekiwań ani skomplikowanych formuł, ponieważ wszystko jest czysto algebraiczne.
Algebraiczna natura obiektów matematycznych
Pytanie dotyczy relacji między (1) macierzą kowariancji skończonego zbioru zmiennych losowych oraz (2) relacjami liniowymi między tymi zmiennymi, uważanymi za wektory .X1,…,Xn
Przestrzeń wektorową o którym mowa, jest to zbiór wszystkich skończonych wariancji zmiennej losowej (w danym miejscu prawdopodobieństwa ) modulo podprzestrzeni zmiennych prawie na pewno stałych, oznaczono L 2 ( Ω , P ) / R . (To znaczy, uważamy dwie losowe zmienne X i Y za ten sam wektor, gdy istnieje zerowa szansa, że X - Y różni się od jego oczekiwań.) Mamy do czynienia tylko z przestrzenną przestrzenią wektorową V generowaną przez X i ,(Ω,P) L2(Ω,P)/R. X Y X−Y V Xi, co sprawia, że jest to problem algebraiczny, a nie analityczny.
Co musimy wiedzieć o wariancjach
jest czymś więcej niż przestrzenią wektorową: jestmodułem kwadratowym,ponieważ jest wyposażony w wariancję. Wszystko, co musimy wiedzieć o wariancjach, to dwie rzeczy:V
Wariancja jest skalar wartościach funkcji z własności, że P ( x ) = a 2 Q ( X ) dla wszystkich wektorów X .Q Q(aX)=a2Q(X) X.
Wariancja nie jest generowana.
Drugi wymaga wyjaśnienia. określa „iloczyn punktowy”, który jest symetryczną dwuliniową formą podaną przezQ
(Jest to oczywiście nic innego niż kowariancji zmiennych i Y . ) Wektorów X i Y są prostopadłe , gdy ich iloczyn skalarny wynosi 0. ortogonalne dopełnienie dowolnego zbioru wektorów ⊂ V składa się z wszystkich wektorów ortogonalnych do każdego elementu z A , napisaneX Y. X Y 0. A⊂V A,
Jest to wyraźnie przestrzeń wektorowa. Gdy , Q nie jest generowany.V0={0} Q
Pozwólcie mi udowodnić, że wariancja rzeczywiście nie jest generowana, nawet jeśli może wydawać się oczywista. Załóżmy, że jest niezerowym elementem V 0 . Oznacza to, że X ⋅ Y = 0 dla wszystkich Y ∈ V ; równoważnieX V0. X⋅Y=0 Y∈V;
dla wszystkich wektorów Biorąc YY. dajeY=X
a zatem Wiemy jednak (być może przy użyciu nierówności Czebyszewa), że jedyne zmienne losowe o zerowej wariancji są prawie na pewno stałe, co identyfikuje je z wektorem zerowym w V , QED.Q(X)=0. V,
Interpretacja pytań
Wracając do pytań, w poprzednim zapisie macierz kowariancji zmiennych losowych jest po prostu regularną tablicą wszystkich ich produktów kropkowych,
There is a good way to think aboutT : it defines a linear transformation on Rn in the usual way, by sending any vector x=(x1,…,xn)∈Rn into the vector T(x)=y=(y1,…,xn) whose ith component is given by the matrix multiplication rule
The kernel of this linear transformation is the subspace it sends to zero:
The foregoing equation implies that whenx∈Ker(T), for every i
Since this is true for everyi, it holds for all vectors spanned by the Xi : namely, V itself. Consequently, when x∈Ker(T), the vector given by ∑jxjXj lies in V0. Because the variance is nondegenerate, this means ∑jxjXj=0. That is, x describes a linear dependency among the n original random variables.
You can readily check that this chain of reasoning is reversible:
(Remember, this statement still considers theXj as defined up to a constant shift in location--that is, as elements of L2(Ω,P)/R --rather than as just random variables.)
Finally, by definition, an eigenvalue ofT is any scalar λ for which there exists a nonzero vector x with T(x)=λx. When λ=0 is an eigenvalue, the space of associated eigenvectors is (obviously) the kernel of T.
Summary
We have arrived at the answer to the questions: the set of linear dependencies of the random variables, qua elements ofL2(Ω,P)/R, corresponds one-to-one with the kernel of their covariance matrix T. This is so because the variance is a nondegenerate quadratic form. The kernel also is the eigenspace associated with the zero eigenvalue (or just the zero subspace when there is no zero eigenvalue).
Reference
I have largely adopted the notation and some of the language of Chapter IV in
Jean-Pierre Serre, A Course In Arithmetic. Springer-Verlag 1973.
źródło
Linear independence is not just sufficient but also a neccesary condition
To show that the variance-covariance matrix has eigenvalues equal to zero if and only if the variables are not linearly independent, it only remains to be shown that "if the matrix has eigenvalues equal to zero then the variables are not linearly independent".
If you have a zero eigenvalue forCij=Cov(Xi,Xj) then there is some linear combination (defined by the eigenvector v )
such that
which means thatY needs to be a constant and thus the variables Xi have to add up to a constant and are either constants themselves (the trivial case) or not linearly independent.
- the first line in the equation withCov(Y,Y) is due to the property of covariance Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)
- the step from the second to the third line is due to the property of a zero eigenvalue∑j=1nvjCij=0
Non-linear constraints
So, since linear constraints are a necessary condition (not just sufficient), non-linear constraints will only be relevant when they indirectly imply a (necessary) linear constraint.
In fact, there is a direct correspondence between the eigenvectors associated with the zero eigenvalue and the linear constraints.
Thus non-linear constraints leading to a zero eigenvalue must, together combined, generate some linear constraint.
How can non-linear constraints lead to linear constraints
Your example in the comments can show this intuitively how non-linear constraints can lead to linear constraints by reversing the derivation. The following non-linear constraints
can be reduced to
You could inverse this. Say you have non-linear plus linear constraints, then it is not strange to imagine how we can replace one of the linear constraints with a non-linear constraint, by filling the linear constraints into the non-linear constraints. E.g when we substitutea=d and b=−c in the non-linear form a2+b2=1 then you can make another relationship ad−bc=1 . And when you multiply a=d and c=−b then you get ac=−bd .
źródło
SupposeC has an eigenvector v with corresponding eigenvalue 0 , then var(vTX)=vTCv=0 . Thus, by Chebyshev's inequality, vTX is almost surely constant and equal to vTE[X] . That is, every zero eigenvalue corresponds to a linear restriction, namely vTX=vTE[X] . There is no need to consider any special cases.
Thus, we conclude:
"are linear constraints the only way to induce zero eigenvalues [?]"
Yes.
"can non-linear constraints on the random variables also generate zero eigenvalues of C ?"
Yes, if they imply linear constraints.
źródło
The covariance marixC of X is symmetric so you can diagnonalize it as C=QΛQT , with the eigenvalues in the diagonal matrix Λ. Rewriting this as Λ=QTCQ , the rhs is the covariance matrix of QTX , so zero eigenvalues on the lhs correspond to linear combinations of X with degenerate distributions.
źródło