Miara „wariancji” z macierzy kowariancji?

17

Jeśli dane mają wartość 1d, wariancja pokazuje stopień, w jakim punkty danych różnią się od siebie. Jeśli dane są wielowymiarowe, otrzymamy macierz kowariancji.

Czy istnieje miara, która podaje pojedynczą liczbę różnic między punktami danych w przypadku danych wielowymiarowych?

Wydaje mi się, że może już istnieć wiele rozwiązań, ale nie jestem pewien, jakiego terminu należy użyć do ich wyszukiwania.

Może mogę zrobić coś takiego jak zsumowanie wartości własnych macierzy kowariancji, czy to brzmi sensownie?

dontloo
źródło
2
Determinant macierzy kowariancji. Wkrótce opublikuję bardziej szczegółową odpowiedź.
user603
5
Śledzenie jest używane bardzo często. Np. W PCA frakcja wariancji wyjaśniona przez każdy składnik jest frakcją „całkowitej wariancji”, która jest zdefiniowana jako ślad macierzy kowariancji. @ user603 Czekam na twoją odpowiedź.
ameba mówi Przywróć Monikę
2
adding up the eigenvalues of the covariance matrixjest równa śladowej amebie wspomnianej powyżej.
ttnphns
W jakim celu ma być zastosowany środek?
HelloGoodbye,
@HelloGoodbye cześć, właściwie mam pewne [zaszumione] dane z etykietami i zakładam z góry, że [prawdziwe] punkty danych w tej samej kategorii nie powinny się bardzo różnić. Szukam sposobu pomiaru stopnia różnic punktów danych w obrębie każdej kategorii, aby móc zorientować się, jak głośne są dane dla każdej kategorii.
dontloo

Odpowiedzi:

16

(Poniższa odpowiedź jedynie wprowadza i stwierdza twierdzenie udowodnione w [0]. Piękno tego artykułu polega na tym, że większość argumentów jest oparta na podstawowej algebrze liniowej. Aby odpowiedzieć na to pytanie, wystarczy podać główne wyniki, ale zdecydowanie sprawdź oryginalne źródło).

W każdej sytuacji, w której wielowymiarowy wzorzec danych można opisać przez zmienny rozkład eliptyczny, wnioskowanie statystyczne z definicji sprowadza się do problemu dopasowania (i scharakteryzowania)kwektora zmiennej lokalizacji k (powiedzmy θ ) i k przez k symetryczna pół-dodatnia określona macierz (powiedzmy Σ ) do danych. Z powodów, które wyjaśnię poniżej (ale które już zakładasz jako przesłanki), często bardziej sensowne będzie rozłożenie Σ na komponent kształtu (macierz SPSD o tym samym rozmiarze co Σ ) uwzględniający kształt konturów gęstości twojego rozkładu wielowymiarowego i skalar σ SkθkkΣΣΣσS wyrażanie skali tych konturów.

W danych jednowymiarowych ( ) Σ macierz kowariancji danych jest skalarem i, jak wynika z poniższej dyskusji, komponent kształtu Σ wynosi 1, tak że Σ równa się jego składowej skali Σ = σ S zawsze i nie jest możliwa dwuznaczność.k=1ΣΣΣΣ=σS

W danych wielowymiarowych możliwy jest duży wybór funkcji skalowania Jeden w szczególności ( σ S = | ΣσS ) wyróżnia się kluczową pożądaną właściwością. To powinno sprawić, że będzie to preferowany wybór współczynnika skalowania w kontekście rodzin eliptycznych.σS=|ΣΣ|1/k


Wiele problemów w statystyce MV wiąże się z oszacowaniem macierzy rozproszenia, zdefiniowanej jako funkcja (al) symetryczna pół dodatnia określona w R k × k i spełniająca:ΣRk×k

(dla macierzy niespecyficznych A i wektorów b ). Na przykład klasyczne oszacowanie kowariancji spełnia (0), ale w żadnym wypadku nie jest jedyne.

(0)Σ(AX+b)=AΣ(X)A
Ab

W obecności eliptycznych danych rozproszonych, gdzie wszystkie kontury gęstości są elipsami zdefiniowanymi przez tę samą macierz kształtu, aż do pomnożenia przez skalar, naturalne jest rozważenie znormalizowanych wersji formy:Σ

VS=Σ/S(Σ)

gdzie jest 1-honogeniczną funkcją spełniającą:S

(1)S(λΣ)=λS(Σ)

dla wszystkich . Następnie V S nazywany jest składnikiem kształtu macierzy rozrzutu (w krótkiej macierzy kształtu), a σ S = S 1 /λ>0VSnazywa się składnik skalę matrycy rozproszenia. Przykłady problemów estymacji wielowymiarowej, w których funkcja straty zależy tylko odΣpoprzez składową kształtu V S, obejmują między innymi testy sferyczności, PCA i CCA.σS=S1/2(Σ)ΣVS

Oczywiście istnieje wiele możliwych funkcji skalowania, więc wciąż pozostaje pytanie, co (jeśli w ogóle) z kilku wyborów funkcji normalizacji jest w pewnym sensie optymalne. Na przykład:S

  • (na przykład ten zaproponowany przez @amoeba w jego komentarzu poniżej pytania PO. Zobacz także [1], [2], [3])S=tr(Σ)/k
  • ([4], [5], [6], [7], [8])S=|Σ|1/k
  • (pierwszy wpis w macierzy kowariancji)Σ11
  • (pierwsza wartość własna Σ )λ1(Σ)Σ

Jednak jest jedyną funkcją skalowania, dla której macierz informacji Fishera dla odpowiednich oszacowań skali i kształtu, w lokalnie asymptotycznie normalnych rodzinach, ma przekątną blokową (tzn. Składowe skali i kształtu problemu estymacji są asymptotycznie ortogonalne) [0 ]. Oznacza to między innymi, że funkcjonalna skala S = | Σ | 1 / k jest jedynym wyborem SS=|Σ|1/kS=|Σ|1/kS , dla których zakaz specyfikacja nie powoduje utraty wydajności podczas wykonywania wnioskowanie na V S .σSVS

Nie znam żadnej porównywalnie silnej charakterystyki optymalizacyjnej dla któregokolwiek z wielu możliwych wyborów które spełniają (1).S

  • [0] Paindaveine, D., Kanoniczna definicja kształtu, Statystyki i listy prawdopodobieństwa, Tom 78, Wydanie 14, 1 października 2008, Strony 2240-2247. Nieanglowany link
  • [1] Dumbgen, L. (1998). O funkcji Tylera w funkcji rozpraszania w dużym wymiarze, Ann. Inst. Statystyk. Matematyka 50, 471–491.
  • [2] Ollila, E., TP Hettmansperger i H. Oja (2004). Affine ekwiwariantne metody znakowania wielowymiarowego. Preprint, University of Jyvaskyla.
  • [3] Tyler, DE (1983). Właściwości dotyczące odporności i wydajności matryc rozpraszających, Biometrika 70, 411–420.
  • [4] Dumbgen, L. i DE Tyler (2005). W sprawie właściwości podziału niektórych wielowymiarowych M-funkcjonałów, Scand. J. Statist. 32, 247–264.
  • [5] Hallin, M. i D. Paindaveine (2008). Optymalne, oparte na rangach testy jednorodności rozproszenia, Ann. Statist., Aby się pojawić.
  • [6] Salibian-Barrera, M., S. Van Aelst i G. Willems (200 6). Analiza głównych składników na podstawie wielowymiarowych estymatorów MM z szybkim i solidnym bootstrapem, J. Amer. Statystyk. Dr hab. 101, 1198–1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila i H. O ja (2006). Funkcje wpływu i wydajności korelacji kanonicznej i estymaty wektorowe oparte na macierzach rozproszenia i kształtu, J. Multivariate Anal. 97, 359–384.
  • [8] Tatsuoka, KS i DE Tyler (2000). O wyjątkowości funkcjonałów S i funkcjonałów M w nieeleptycznych rozkładach, Ann. Statystyk. 28, 1219–1243.
użytkownik603
źródło
1
Ponadto jest dziwnym wyborem dla składnika skali, ponieważ nie jest on niezmienny dla rotacji ...Σ11
ameba mówi Przywróć Monikę
Dzięki za przemyślaną odpowiedź! zajmie mi to trochę czasu, aby to w pełni zrozumieć :)
dontloo,
@amoeba: zastosowane do XΣ . Upuszczam XXX w pozostałej części odpowiedzi, ponieważ nie jest możliwe zamieszanie. Zgadzam się, że to trochę niezdarne, więc teraz używam Σ ( XXX . Zgadzam się z twoim drugim komentarzem. Tym samym tocken λ 1 ( Σ ) nie jest niezmienny dla przeskalowania. W tym sensie ograniczenie jednorodności nałożone na S jest bardzo niskim słupkiem. Σ(XX)λ1(Σ)S
user603
Czekać; dlaczego miałby chcieć lub oczekiwać, że składnik skali będzie niezmienny przy ponownym skalowaniu ?
ameba mówi Przywróć Monikę
Przepraszam, miałem na myśli, że jeśli użyjesz jako funkcji skalowania, wynikowa macierz kształtu nie jest równoważna z przeskalowaniem. λ1(Σ)
user603
11

Wariancja zmiennej skalarnej jest zdefiniowana jako kwadratowe odchylenie zmiennej od jej średniej:

Var(X)=E[(XE[X])2]

Jedno uogólnienie na wariancję skalarną dla zmiennych losowych o wartości wektorowej można uzyskać, interpretując odchylenie jako odległość euklidesową :

Vars(X)=E[XE[X]22]

To wyrażenie może zostać przepisane jako

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

gdzie jest macierzą kowariancji. Wreszcie można to uprościćC

Vars(X)=tr(C)

który jest śladem macierzy kowariancji.

Cześć Żegnaj
źródło
4

Chociaż ślad macierzy kowariancji, tr (C) , daje miarę całkowitej wariancji, nie uwzględnia korelacji między zmiennymi.

Jeśli potrzebujesz miary ogólnej wariancji, która jest duża, gdy twoje zmienne są od siebie niezależne, i jest bardzo mała, gdy zmienne są silnie skorelowane, możesz użyć wyznacznika macierzy kowariancji, | C | .

Aby dowiedzieć się więcej, zapoznaj się z tym artykułem .

Sahar
źródło
4

Jeśli potrzebujesz tylko jednej liczby, sugeruję największą wartość własną macierzy kowariancji. Jest to również wyjaśniona odmiana pierwszego głównego składnika PCA. Mówi ci, ile całkowitej wariancji można wytłumaczyć, jeśli zredukujesz wymiar wektora do jednego. Zobacz tę odpowiedź na stronie matematyki SE.

Chodzi o to, aby zwinąć wektor w jeden wymiar, łącząc wszystkie zmienne liniowo w jedną serię. Kończy się problem 1d.

Wyjaśnioną wariancję można podać w procentach do całkowitej wariancji. W takim przypadku natychmiast zobaczysz, czy istnieje szereg liniowej korelacji między seriami. W niektórych zastosowaniach liczba ta może wynosić 80% i więcej, np. Modelowanie krzywej stóp procentowych w finansach. Oznacza to, że możesz zbudować liniową kombinację zmiennych, która wyjaśnia 80 wariancji wszystkich zmiennych.

Aksakal
źródło
3

Koncepcja entropii z teorii informacji wydaje się pasować do celu, jako miara nieprzewidywalności treści informacyjnej, którą podaje

H.(X)=-p(x)logp(x)rex.

Jeśli przyjmiemy wielowymiarowy rozkład Gaussa dla p(x) ze średnim μ i kowariancja Σna podstawie danych, według wikipedii , entropia różnicowa jest wtedy,

H(X)=12log((2πe)ndet(Σ))
where n is the number of dimensions. Since multivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

And it depends on the determinant of the covariance matrix, as @user603 suggests.

dontloo
źródło
This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?
whuber
@whuber thanks for the suggestion i guess maybe i should rewrite Gaussian as "the distribution that maximizes the entropy given a variance"? then the result will become some upper bound. what do you think?
dontloo
That sounds like it's going somewhere useful and more general.
whuber
1
I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).
user603