Jeśli dane mają wartość 1d, wariancja pokazuje stopień, w jakim punkty danych różnią się od siebie. Jeśli dane są wielowymiarowe, otrzymamy macierz kowariancji.
Czy istnieje miara, która podaje pojedynczą liczbę różnic między punktami danych w przypadku danych wielowymiarowych?
Wydaje mi się, że może już istnieć wiele rozwiązań, ale nie jestem pewien, jakiego terminu należy użyć do ich wyszukiwania.
Może mogę zrobić coś takiego jak zsumowanie wartości własnych macierzy kowariancji, czy to brzmi sensownie?
variance
covariance
covariance-matrix
dontloo
źródło
źródło
adding up the eigenvalues of the covariance matrix
jest równa śladowej amebie wspomnianej powyżej.Odpowiedzi:
(Poniższa odpowiedź jedynie wprowadza i stwierdza twierdzenie udowodnione w [0]. Piękno tego artykułu polega na tym, że większość argumentów jest oparta na podstawowej algebrze liniowej. Aby odpowiedzieć na to pytanie, wystarczy podać główne wyniki, ale zdecydowanie sprawdź oryginalne źródło).
W każdej sytuacji, w której wielowymiarowy wzorzec danych można opisać przez zmienny rozkład eliptyczny, wnioskowanie statystyczne z definicji sprowadza się do problemu dopasowania (i scharakteryzowania)k wektora zmiennej lokalizacji k (powiedzmy θ ) i k przez k symetryczna pół-dodatnia określona macierz (powiedzmy Σ ) do danych. Z powodów, które wyjaśnię poniżej (ale które już zakładasz jako przesłanki), często bardziej sensowne będzie rozłożenie Σ na komponent kształtu (macierz SPSD o tym samym rozmiarze co Σ ) uwzględniający kształt konturów gęstości twojego rozkładu wielowymiarowego i skalar σ Sk θ k k Σ Σ Σ σS wyrażanie skali tych konturów.
W danych jednowymiarowych ( ) Σ macierz kowariancji danych jest skalarem i, jak wynika z poniższej dyskusji, komponent kształtu Σ wynosi 1, tak że Σ równa się jego składowej skali Σ = σ S zawsze i nie jest możliwa dwuznaczność.k=1 Σ Σ Σ Σ=σS
W danych wielowymiarowych możliwy jest duży wybór funkcji skalowania Jeden w szczególności ( σ S = | ΣσS ) wyróżnia się kluczową pożądaną właściwością. To powinno sprawić, że będzie to preferowany wybór współczynnika skalowania w kontekście rodzin eliptycznych.σS=|ΣΣ|1/k
Wiele problemów w statystyce MV wiąże się z oszacowaniem macierzy rozproszenia, zdefiniowanej jako funkcja (al) symetryczna pół dodatnia określona w R k × k i spełniająca:Σ Rk×k
(dla macierzy niespecyficznych A i wektorów b ). Na przykład klasyczne oszacowanie kowariancji spełnia (0), ale w żadnym wypadku nie jest jedyne.
W obecności eliptycznych danych rozproszonych, gdzie wszystkie kontury gęstości są elipsami zdefiniowanymi przez tę samą macierz kształtu, aż do pomnożenia przez skalar, naturalne jest rozważenie znormalizowanych wersji formy:Σ
gdzie jest 1-honogeniczną funkcją spełniającą:S
dla wszystkich . Następnie V S nazywany jest składnikiem kształtu macierzy rozrzutu (w krótkiej macierzy kształtu), a σ S = S 1 /λ>0 VS nazywa się składnik skalę matrycy rozproszenia. Przykłady problemów estymacji wielowymiarowej, w których funkcja straty zależy tylko odΣpoprzez składową kształtu V S, obejmują między innymi testy sferyczności, PCA i CCA.σS=S1/2(Σ) Σ VS
Oczywiście istnieje wiele możliwych funkcji skalowania, więc wciąż pozostaje pytanie, co (jeśli w ogóle) z kilku wyborów funkcji normalizacji jest w pewnym sensie optymalne. Na przykład:S
Jednak jest jedyną funkcją skalowania, dla której macierz informacji Fishera dla odpowiednich oszacowań skali i kształtu, w lokalnie asymptotycznie normalnych rodzinach, ma przekątną blokową (tzn. Składowe skali i kształtu problemu estymacji są asymptotycznie ortogonalne) [0 ]. Oznacza to między innymi, że funkcjonalna skala S = | Σ | 1 / k jest jedynym wyborem SS=|Σ|1/k S=|Σ|1/k S , dla których zakaz specyfikacja nie powoduje utraty wydajności podczas wykonywania wnioskowanie na V S .σS VS
Nie znam żadnej porównywalnie silnej charakterystyki optymalizacyjnej dla któregokolwiek z wielu możliwych wyborów które spełniają (1).S
źródło
Wariancja zmiennej skalarnej jest zdefiniowana jako kwadratowe odchylenie zmiennej od jej średniej:
Jedno uogólnienie na wariancję skalarną dla zmiennych losowych o wartości wektorowej można uzyskać, interpretując odchylenie jako odległość euklidesową :
To wyrażenie może zostać przepisane jako
gdzie jest macierzą kowariancji. Wreszcie można to uprościćC
który jest śladem macierzy kowariancji.
źródło
Chociaż ślad macierzy kowariancji, tr (C) , daje miarę całkowitej wariancji, nie uwzględnia korelacji między zmiennymi.
Jeśli potrzebujesz miary ogólnej wariancji, która jest duża, gdy twoje zmienne są od siebie niezależne, i jest bardzo mała, gdy zmienne są silnie skorelowane, możesz użyć wyznacznika macierzy kowariancji, | C | .
Aby dowiedzieć się więcej, zapoznaj się z tym artykułem .
źródło
Jeśli potrzebujesz tylko jednej liczby, sugeruję największą wartość własną macierzy kowariancji. Jest to również wyjaśniona odmiana pierwszego głównego składnika PCA. Mówi ci, ile całkowitej wariancji można wytłumaczyć, jeśli zredukujesz wymiar wektora do jednego. Zobacz tę odpowiedź na stronie matematyki SE.
Chodzi o to, aby zwinąć wektor w jeden wymiar, łącząc wszystkie zmienne liniowo w jedną serię. Kończy się problem 1d.
Wyjaśnioną wariancję można podać w procentach do całkowitej wariancji. W takim przypadku natychmiast zobaczysz, czy istnieje szereg liniowej korelacji między seriami. W niektórych zastosowaniach liczba ta może wynosić 80% i więcej, np. Modelowanie krzywej stóp procentowych w finansach. Oznacza to, że możesz zbudować liniową kombinację zmiennych, która wyjaśnia 80 wariancji wszystkich zmiennych.
źródło
Koncepcja entropii z teorii informacji wydaje się pasować do celu, jako miara nieprzewidywalności treści informacyjnej, którą podaje
Jeśli przyjmiemy wielowymiarowy rozkład Gaussa dlap ( x ) ze średnim μ i kowariancja Σ na podstawie danych, według wikipedii , entropia różnicowa jest wtedy,
And it depends on the determinant of the covariance matrix, as @user603 suggests.
źródło