Wystarczające i niezbędne warunki dla zerowej wartości własnej macierzy korelacji

11

Biorąc pod uwagę n Zmienna losowa Xi z rozkładu prawdopodobieństwa P(X1,,Xn) , w korelacji macierzy Cij=E[XiXj]E[Xi]E[Xj] jest dodatnia pół- określony, tj. jego wartości własne są dodatnie lub zerowe.

Interesują mnie warunki na P które są konieczne i / lub wystarczające, aby C miał m zero wartości własnych. Na przykład wystarczającym warunkiem jest to, że zmienne losowe nie są niezależne: iuiXi=0 dla niektórych liczb rzeczywistych ui . Na przykład, jeśli P(X1,,Xn)=δ(X1X2)p(X2,,Xn) , a następnieu=(1,1,0,,0) jest wektorem własnymC o zerowej wartości własnej. Jeżeli mamym niezależne ograniczenia liniowe naXi tego typu, oznaczałoby tom zero wartości własnych.

Istnieje co najmniej jedna dodatkowa (ale trywialna) możliwość, gdy dla niektórych a (tj. P ( X 1 , , X n ) δ ( X a - E [Xa=E[Xa]a ), ponieważ w tym przypadku C i j ma kolumnę i wiersz zer: C i a = C a i = 0 ,P(X1,,Xn)δ(XaE[Xa])Cij . Ponieważ nie jest to tak naprawdę interesujące, zakładam, że rozkład prawdopodobieństwa nie ma takiej postaci.Cia=Cai=0,i

Moje pytanie brzmi: czy ograniczenia liniowe to jedyny sposób na wywołanie zerowych wartości własnych (jeśli zabronimy trywialnego wyjątku podanego powyżej), czy też nieliniowe ograniczenia zmiennych losowych mogą również generować zerowe wartości własne ?C

Adam
źródło
1
Z definicji zbiór wektorów zawierający wektor zerowy jest liniowo zależny, więc twoja dodatkowa możliwość nie jest niczym nowym ani innym. Czy mógłbyś wyjaśnić, co masz na myśli przez „mający wartość własną”? To wygląda na błąd typograficzny. m
whuber
@ whuber: tak, literówka. Poprawione Myślę, że dwa warunki są różne: jeden dotyczy zależności między zmiennymi, a drugi prawdopodobieństwa tylko zmiennej (mianowicie ). p(Xa)=δ(XaE(Xa))
Adam
Sformułowanie twojego pytania jest mylące. To wygląda jak elementarne twierdzenia algebry liniowej, ale odniesienia do „niezależnych” zmiennych losowych sugerować to może być o czymś zupełnie innym. Czy poprawne byłoby zrozumienie, że za każdym razem, gdy używasz „niezależnego”, masz na myśli w sensie liniowej niezależności, a nie w sensie (statystycznie) niezależnych zmiennych losowych? Twoje odniesienie do „brakujących danych” jest jeszcze bardziej mylące, ponieważ sugeruje, że „zmienne losowe” mogą naprawdę oznaczać tylko kolumny macierzy danych. Dobrze byłoby zobaczyć te znaczenia wyjaśnione.
whuber
@whuber: Zredagowałem pytanie. Mam nadzieję, że jest to wyraźniejsze.
Adam
Warunkiem niezależności niekoniecznie muszą być zerowy (dowolny stały zrobi), chyba że średni każdego X i wynosi zero. iuiXi=0Xi
Sextus Empiricus

Odpowiedzi:

6

Być może poprzez uproszczenie zapisu możemy wydobyć podstawowe idee. Okazuje się, że nie potrzebujemy angażować oczekiwań ani skomplikowanych formuł, ponieważ wszystko jest czysto algebraiczne.


Algebraiczna natura obiektów matematycznych

Pytanie dotyczy relacji między (1) macierzą kowariancji skończonego zbioru zmiennych losowych oraz (2) relacjami liniowymi między tymi zmiennymi, uważanymi za wektory .X1,,Xn

Przestrzeń wektorową o którym mowa, jest to zbiór wszystkich skończonych wariancji zmiennej losowej (w danym miejscu prawdopodobieństwa ) modulo podprzestrzeni zmiennych prawie na pewno stałych, oznaczono L 2 ( Ω , P ) / R . (To znaczy, uważamy dwie losowe zmienne X i Y za ten sam wektor, gdy istnieje zerowa szansa, że X - Y różni się od jego oczekiwań.) Mamy do czynienia tylko z przestrzenną przestrzenią wektorową V generowaną przez X i ,(Ω,P)L2(Ω,P)/R.XYXYVXi, co sprawia, że ​​jest to problem algebraiczny, a nie analityczny.

Co musimy wiedzieć o wariancjach

jest czymś więcej niż przestrzenią wektorową: jestmodułem kwadratowym,ponieważ jest wyposażony w wariancję. Wszystko, co musimy wiedzieć o wariancjach, to dwie rzeczy:V

  1. Wariancja jest skalar wartościach funkcji z własności, że P ( x ) = a 2 Q ( X ) dla wszystkich wektorów X .QQ(aX)=a2Q(X)X.

  2. Wariancja nie jest generowana.

Drugi wymaga wyjaśnienia. określa „iloczyn punktowy”, który jest symetryczną dwuliniową formą podaną przezQ

XY=14(Q(X+Y)Q(XY)).

(Jest to oczywiście nic innego niż kowariancji zmiennych i Y . ) Wektorów X i Yprostopadłe , gdy ich iloczyn skalarny wynosi 0. ortogonalne dopełnienie dowolnego zbioru wektorów V składa się z wszystkich wektorów ortogonalnych do każdego elementu z A , napisaneXY.XY0.AVA,

A0={vVa.v=0 for all vV}.

Jest to wyraźnie przestrzeń wektorowa. Gdy , Q nie jest generowany.V0={0}Q

Pozwólcie mi udowodnić, że wariancja rzeczywiście nie jest generowana, nawet jeśli może wydawać się oczywista. Załóżmy, że jest niezerowym elementem V 0 . Oznacza to, że X Y = 0 dla wszystkich Y V ; równoważnieXV0.XY=0YV;

Q(X+Y)=Q(XY)

dla wszystkich wektorów Biorąc YY. dajeY=X

4Q(X)=Q(2X)=Q(X+X)=Q(XX)=Q(0)=0

a zatem Wiemy jednak (być może przy użyciu nierówności Czebyszewa), że jedyne zmienne losowe o zerowej wariancji są prawie na pewno stałe, co identyfikuje je z wektorem zerowym w V , QED.Q(X)=0.V,

Interpretacja pytań

Wracając do pytań, w poprzednim zapisie macierz kowariancji zmiennych losowych jest po prostu regularną tablicą wszystkich ich produktów kropkowych,

T=(XiXj).

There is a good way to think about T: it defines a linear transformation on Rn in the usual way, by sending any vector x=(x1,,xn)Rn into the vector T(x)=y=(y1,,xn) whose ith component is given by the matrix multiplication rule

yi=j=1n(XiXj)xj.

The kernel of this linear transformation is the subspace it sends to zero:

Ker(T)={xRnT(x)=0}.

The foregoing equation implies that when xKer(T), for every i

0=yi=j=1n(XiXj)xj=Xi(jxjXj).

Since this is true for every i, it holds for all vectors spanned by the Xi: namely, V itself. Consequently, when xKer(T), the vector given by jxjXj lies in V0. Because the variance is nondegenerate, this means jxjXj=0. That is, x describes a linear dependency among the n original random variables.

You can readily check that this chain of reasoning is reversible:

Linear dependencies among the Xj as vectors are in one-to-one correspondence with elements of the kernel of T.

(Remember, this statement still considers the Xj as defined up to a constant shift in location--that is, as elements of L2(Ω,P)/R--rather than as just random variables.)

Finally, by definition, an eigenvalue of T is any scalar λ for which there exists a nonzero vector x with T(x)=λx. When λ=0 is an eigenvalue, the space of associated eigenvectors is (obviously) the kernel of T.


Summary

We have arrived at the answer to the questions: the set of linear dependencies of the random variables, qua elements of L2(Ω,P)/R, corresponds one-to-one with the kernel of their covariance matrix T. This is so because the variance is a nondegenerate quadratic form. The kernel also is the eigenspace associated with the zero eigenvalue (or just the zero subspace when there is no zero eigenvalue).


Reference

I have largely adopted the notation and some of the language of Chapter IV in

Jean-Pierre Serre, A Course In Arithmetic. Springer-Verlag 1973.

whuber
źródło
XjX=(X1,,Xn)), or do you ? If I'm right, I'm guessing that you are collecting the possible values of the random variable Xi into a vector, while the probability distribution is hidden into the definition of the variance, right ?
Adam
I think the main aspect that is not quite clear is the following (which might just show my lack of formal knowledge of probability theory) : you seem to show that if there is a 0 eigenvalue, then we have e.g. X1=X2. This constraint does not refer to the probability distribution P, which is hidden in Q (I think this is the clever point about this demonstration). But what does that mean to have X1=X2 without reference to P? Or does it just imply that Pδ(X1X2), but then how do we know that it must be a linear combination of X1 and X2 in the delta function?
Adam
I'm afraid I don't understand your use of a "delta function" in this context, Adam. That is partly because I see no need for it and partly because the notation is ambiguous: would that be a Kronecker delta or a Dirac delta, for instance?
whuber
It would be a Kronecker or a Dirac depending on the variables (discrete or continuous). These delta's could be part of the integration measure, e.g. I integrate over 2-by-2 matrices M (so four real variables X1, X2, X3 and X4, with some weight (say P=exp(tr(M.MT))), or I integrate over a sub-group. If it is symmetric matrices (implying for instance X2=X3), I can formally impose that by multiplying P by δ(X1X2). This would be a linear constraint. An example of non-linear constraint is given in the comments below Martijn Weterings's answer.
Adam
(continued) The question is : what can of non-linear constraints that I can add on my variables can induce a 0 eigenvalue. By your answers, it seems to be : only non-linear constraint that imply linear constraint (as exemplified in the comments below Martijn Weterings's answer). Maybe the problem is that my way of thinking of the problem is from a physicist point of view, and I struggle to explain it in a different language (I think here is the right place to ask this question, no physics.SE).
Adam
5

Linear independence is not just sufficient but also a neccesary condition

To show that the variance-covariance matrix has eigenvalues equal to zero if and only if the variables are not linearly independent, it only remains to be shown that "if the matrix has eigenvalues equal to zero then the variables are not linearly independent".

If you have a zero eigenvalue for Cij=Cov(Xi,Xj) then there is some linear combination (defined by the eigenvector v)

Y=i=1nvi(Xi)

such that

Cov(Y,Y)=i=1nj=1nvivjCov(Xi,Xj)=i=1nvij=1nvjCij=i=1nvi0=0

which means that Y needs to be a constant and thus the variables Xi have to add up to a constant and are either constants themselves (the trivial case) or not linearly independent.

- the first line in the equation with Cov(Y,Y) is due to the property of covariance

Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)

- the step from the second to the third line is due to the property of a zero eigenvalue

j=1nvjCij=0


Non-linear constraints

So, since linear constraints are a necessary condition (not just sufficient), non-linear constraints will only be relevant when they indirectly imply a (necessary) linear constraint.

In fact, there is a direct correspondence between the eigenvectors associated with the zero eigenvalue and the linear constraints.

Cv=0Y=i=1nviXi=const

Thus non-linear constraints leading to a zero eigenvalue must, together combined, generate some linear constraint.


How can non-linear constraints lead to linear constraints

Your example in the comments can show this intuitively how non-linear constraints can lead to linear constraints by reversing the derivation. The following non-linear constraints

a2+b2=1c2+d2=1ac+bd=0adbc=1

can be reduced to

a2+b2=1c2+d2=1ad=0b+c=0

You could inverse this. Say you have non-linear plus linear constraints, then it is not strange to imagine how we can replace one of the linear constraints with a non-linear constraint, by filling the linear constraints into the non-linear constraints. E.g when we substitute a=d and b=c in the non-linear form a2+b2=1 then you can make another relationship adbc=1. And when you multiply a=d and c=b then you get ac=bd.

Sextus Empiricus
źródło
I guess this (and the answer by whuber) is an indirect answer to my question (which was : "is linear dependence the only way to obtain a zero eigenvalue") in this way : even if the dependence between the random variables is non-linear, it can always be rewritten as a linear dependence by just writing Y=iνiXi. Although I was really looking for way to characterize the possible non-linear constraints themselves, I guess it is nevertheless a useful result.
Adam
Yes, I know... what I'm saying is that if there is a non-linear dependence and there is a zero eigenvalue, then by your answer, it means that the non-linear dependence can be "factored" in some way into a linear dependence. It is a weaker version of what I was looking for, but still something.
Adam
Your a giving an example that does not work, which does not mean that it cannot be the case...
Adam
Here is a counter-example of what your saying (if you think it is not, then it might help us find what is wrong with my formulation of the problem :) ) : Take a 2-by-2 random matrix M, with the non-linear constraint M.MT=1 and detM=1. These 3 non-linear constraint can be rewritten in terms of 2 linear constraints, and one linear : meaning that the covariance matrix has two 0 eigenvector. Remove the constraint detM=1, and they disappear.
Adam
M11=X1, M12=X2, M21=X3 and M22=X4. The constraints are X12+X22=1, X32+X42=1, X1X3+X2X4=0 (only two are independent). They do not imply a zero eigenvalue. However, adding X1X4X2X3=1 does imply two eigenvectors with 0 eigenvalues.
Adam
2

Suppose C has an eigenvector v with corresponding eigenvalue 0, then var(vTX)=vTCv=0. Thus, by Chebyshev's inequality, vTX is almost surely constant and equal to vTE[X]. That is, every zero eigenvalue corresponds to a linear restriction, namely vTX=vTE[X]. There is no need to consider any special cases.

Thus, we conclude:

"are linear constraints the only way to induce zero eigenvalues [?]"

Yes.

"can non-linear constraints on the random variables also generate zero eigenvalues of C ?"

Yes, if they imply linear constraints.

ekvall
źródło
I agree. I was hoping that one could be more specific on the kind of non-linear constraints, but I guess that it is hard to do better if we do not specify the constraints.
Adam
2

The covariance marix C of X is symmetric so you can diagnonalize it as C=QΛQT, with the eigenvalues in the diagonal matrix Λ. Rewriting this as Λ=QTCQ, the rhs is the covariance matrix of QTX, so zero eigenvalues on the lhs correspond to linear combinations of X with degenerate distributions.

Hasse1987
źródło
This is a very nice concise description, but how could we make it more intuitive that QTCQ=cov(QTX)?
Sextus Empiricus