Dlaczego macierz kowariancji próbki jest pojedyncza, gdy wielkość próby jest mniejsza niż liczba zmiennych?

30

Powiedzmy, że mam wymiarowy wielowymiarowy rozkład Gaussa. Biorę obserwacji (każdy z nich -vector), z tego rozkładu i obliczyć próbki kowariancji . W tym artykule autorzy stwierdzają, że macierz kowariancji próbki obliczona za pomocą jest pojedynczą.pnpSp>n

  • Jak to jest prawda lub pochodne?
  • Jakieś wyjaśnienia?
użytkownik34790
źródło
4
Zauważ, że jest to prawda niezależnie od rozkładu podstawowego: nie musi być gaussowski.
ameba mówi Przywróć Monikę

Odpowiedzi:

22

Niektóre fakty o szeregach macierzy, oferowane bez dowodu (ale dowody wszystkich lub prawie wszystkich z nich powinny być podane w standardowych tekstach algebry liniowej, lub w niektórych przypadkach ustawione jako ćwiczenia po podaniu wystarczającej ilości informacji, aby móc to zrobić):

Jeśli i są dwiema zgodnymi matrycami, to:B.AB

(i) pozycja kolumny = pozycja rzęduAAA

(ii)rank(A)=rank(AT)=rank(ATA)=rank(AAT)

(iii)rank(AB)min(rank(A),rank(B))

(iv) rank(A+B)rank(A)+rank(B)

(v) jeśli B jest kwadratową matrycą pełnego rzędu, to rank(AB)=rank(A)

Rozważmy macierz n×p przykładowych danych, y . Z powyższego ranga y wynosi co najwyżej min(n,p) .

Co więcej, z powyższego wyraźnie ranga nie będzie większa niż ranga (biorąc pod uwagę obliczenia w postaci macierzowej, z pewnymi uproszczeniami).y SSyS

Jeśli to w którym to przypadku .stopień ( r ) < P stopień ( S ) < Pn<prank(y)<prank(S)<p

Glen_b - Przywróć Monikę
źródło
niezła odpowiedź! Nie jest jednak do końca jasne, w jaki sposób y i S odnoszą się do A i B?
Matifou
S oblicza się na podstawie y; („x” w oryginalnym poście). Możesz użyć faktów na temat yi wykonanych na nim manipulacji (zgodnie z powyższymi regułami), aby uzyskać rangę S. Role odgrywane przez A i B zmieniają się z kroku na krok.
Glen_b
14

Krótka odpowiedź na twoje pytanie to ranga . Więc jeśli , to jest liczbą pojedynczą.p > n S.(S)n1p>nS

Aby uzyskać bardziej szczegółową odpowiedź, przypomnij, że (obiektywną) macierz kowariancji próbki można zapisać jako

S=1n1i=1n(xix¯)(xix¯)T.

W efekcie sumujemy macierzy, z których każda ma rangę 1. Zakładając, że obserwacje są liniowo niezależne, w pewnym sensie każda obserwacja przyczynia się do 1 do rangi , a 1 odejmuje się od rangi (jeśli ) ponieważ każdą obserwację skupiamy na . Jeśli jednak w obserwacjach występuje wielokoliniowość , wówczas ranga może zostać zmniejszona, co wyjaśnia, dlaczego ranga może być mniejsza niż .x i ( S ) p > n ˉ x ( S ) n - 1nxi(S)p>nx¯(S)n1

Dużo pracy poświęcono na zbadanie tego problemu. Na przykład, mój kolega i ja napisaliśmy artykuł na ten sam temat, w którym byliśmy zainteresowani ustaleniem, jak postępować, jeśli jest liczbą pojedynczą, gdy stosuje się ją do liniowej analizy dyskryminacyjnej w ustawieniu .p nSpn

ramhiser
źródło
4
Czy możesz wyjaśnić, dlaczego odejmij 1, ponieważ każdą obserwację skupiamy nax¯ ?
awokado
@loganecolss: Zobacz, dlaczego ranga macierzy kowariancji wynosi co najwyżej ? n1po odpowiedź na twoje pytanie.
ameba mówi Przywróć Monikę
Niezła odpowiedź! Może wystarczy dodać wyjaśnienie / link do faktu, że sumujemy macierze,, z których każda ma rangę 1 ? Dzięki!
Matifou
10

Gdy spojrzysz na sytuację we właściwy sposób, wniosek jest intuicyjnie oczywisty i natychmiastowy.

Ten post oferuje dwie demonstracje. Pierwszy, bezpośrednio poniżej, jest słowny. Jest to odpowiednik prostego rysunku, który pojawia się na samym końcu. Między nimi znajduje się wyjaśnienie znaczenia słów i rysunku.


Macierz kowariancji -variate obserwacji jest matrycy obliczana przez pomnożenie lewej matrycy (z wyśrodkowany dane) przez jego transpozycji . Ten iloczyn macierzy wysyła wektory przez potok przestrzeni wektorowych, w których wymiarami są i . W konsekwencji macierz kowariancji, qua linearna transformacja, wyśle do podprzestrzeni, której wymiar wynosi co najwyżej . Natychmiastowe jest, że ranga macierzy kowariancji nie jest większa niż . W konsekwencji, jeślip p × p X n p X p n p n R n min ( p , n ) min ( p , n ) p > n n pn pp×pXnpXpnpnRnmin(p,n)min(p,n)p>n wtedy ranga jest co najwyżej , co - będąc ściśle mniejszą niż oznacza, że ​​macierz kowariancji jest liczbą pojedynczą.np

Cała ta terminologia została w pełni wyjaśniona w dalszej części tego postu.

(Jak Amoeba uprzejmie zauważył w usuniętym komentarzu i pokazuje w odpowiedzi na powiązane pytanie , obraz faktycznie znajduje się w podprzestrzeni o jednym kodzie wymiaru (składający się z wektorów, których komponenty sumują się na zero), ponieważ wszystkie jego kolumny zostały ostatnio wyzerowane. Dlatego ranga przykładowej macierzy kowariancji nie może przekraczać )R n 1XRnn-11n1XXn1


Algebra liniowa polega na śledzeniu wymiarów przestrzeni wektorowych. Musisz docenić tylko kilka podstawowych pojęć, aby mieć głęboką intuicję w zapewnianiu o randze i osobliwości:

  1. Mnożenie macierzy reprezentuje transformacje liniowe wektorów. An matrycy oznacza liniową transformację z -wymiarowej przestrzeni An -wymiarowej przestrzeni . W szczególności wysyła dowolne do . To, że jest to transformacja liniowa, wynika bezpośrednio z definicji transformacji liniowej i podstawowych właściwości arytmetycznych mnożenia macierzy.M n V n m V m x V n M x = y V mm×nMnVnmVmxVnMx=yVm

  2. Transformacje liniowe nigdy nie mogą zwiększać wymiarów. Oznacza to, że obraz całej przestrzeni wektorowej pod transformacją (która jest przestrzenią ) może mieć wymiar nie większy niż . Jest to (łatwe) twierdzenie wynikające z definicji wymiaru.M V m nVnMVmn

  3. Wymiar dowolnej przestrzeni subwektorowej nie może przekraczać wymiaru przestrzeni, w której się ona znajduje. To jest twierdzenie, ale znowu jest oczywiste i łatwe do udowodnienia.

  4. Ranga od transformacji liniowej jest wymiarem jego wizerunku. Ranga macierzy to ranga reprezentowanej przez nią transformacji liniowej. To są definicje.

  5. Pojedynczej matrycy ma stopień mniejszy od NMmnn (wymiar jego domeny). Innymi słowy, jego obraz ma mniejszy wymiar. To jest definicja.

Aby rozwinąć intuicję, pomaga zobaczyć wymiary. Dlatego napiszę wymiary wszystkich wektorów i macierzy natychmiast po nich, jak w i . Zatem ogólna formuła x nMmnxn

ym=Mmnxn

ma oznaczać, że macierz , zastosowana do wektora , daje wektor .M n x m ym×nMnxmy

Produkty macierzy można traktować jako „potok” przekształceń liniowych. Ogólnie, załóżmy jest wymiarową wektor otrzymany z kolejnych zastosowań liniowego przekształceń i do wektor pochodzący z przestrzeni . To prowadzi wektor kolejno przez zestaw przestrzeni wektorowych o wymiarach a na końcu . a M m n , L l m , , B b c , A a b n x n V n x n m , l , , c , b , ayaaMmn,Llm,,Bbc,AabnxnVnxnm,l,,c,b,a

Poszukaj wąskiego gardła : ponieważ wymiary nie mogą wzrosnąć (punkt 2), a podprzestrzenie nie mogą mieć wymiarów większych niż przestrzenie, w których się znajdują (punkt 3), wynika z tego, że wymiar obrazu nie może przekraczać najmniejszego wymiaru napotkane w potoku. min ( a , b , c , , l , m , n )Vnmin(a,b,c,,l,m,n)


Ten diagram potoku w pełni potwierdza wynik, gdy zostanie zastosowany do produktu :XX

! [wprowadź opis zdjęcia tutaj

Whuber
źródło