Metryki macierzy kowariancji: wady i zalety

11

Jakie są „najlepsze” wskaźniki dla macierzy kowariancji i dlaczego? Jest dla mnie jasne, że Frobenius i c nie są odpowiednie, a parametryzacje kątów również mają swoje problemy. Intuicyjnie można chcieć kompromisu między tymi dwoma, ale chciałbym również wiedzieć, czy istnieją inne aspekty, o których należy pamiętać i być może dobrze ustalone standardy.

Wspólne mierniki mają różne wady, ponieważ nie są naturalne dla macierzy kowariancji, np. Często nie szczególnie karają macierzy innych niż PSD lub nie zachowują się dobrze w stosunku do rangi (rozważ dwie obrócone elipsoidy kowariancji niskiej rangi: chciałbym to samo -ranż rotację pośrednią, aby mieć mniejsze odległości niż średnia składowa, co nie ma miejsca w przypadku i być może Frobeniusa, proszę mnie poprawić tutaj). Również wypukłość nie zawsze jest gwarantowana. Dobrze byłoby zobaczyć te i inne problemy rozwiązane za pomocą „dobrych” wskaźników.L1

Oto dobre omówienie niektórych problemów, jeden przykład z optymalizacji sieci i jeden z wizji komputerowej . A oto podobne pytanie dotyczące innych wskaźników, ale bez dyskusji.

Kwarc
źródło
2
Jaki jest cel poszukiwanych danych? Bo co jest niewłaściwe w metodzie Frobeniusa?
whuber
1
L1
Jak to ostatnie pytanie, które określasz jako „bardziej ograniczone”? W końcu wszystkie macierze kowariancji są symetryczne. Wydaje się być idealnym duplikatem.
whuber
1
To dobra krytyka drugiego pytania. Czy mogę zasugerować edycję pytania (i tytułu), aby odzwierciedlić treść ostatniego komentarza? To wyraźnie odróżni go od pozornego duplikatu i pomoże respondentom udzielić bardziej odpowiednich odpowiedzi. (I nie martw się o zmiany w swoim własnym pytaniu: jest to oczekiwane; meta wątek dotyczy przede wszystkim edycji przez społeczność .)
whuber
1
@kjetilbhalvorsen To prowokujące zdanie! Czy możesz rozwinąć odpowiedź? Lub podać odniesienie do artykułu?
Sycorax mówi Przywróć Monikę

Odpowiedzi:

2

Cóż, nie sądzę, aby istniała dobra metryka lub „najlepszy sposób” analizy macierzy kowariancji. Analiza powinna zawsze być dostosowana do celu. Powiedzmy, że C jest moją macierzą kowariancji. Przekątna zawiera wariancję dla każdego obliczonego parametru. Więc jeśli interesuje Cię znaczenie parametru, to ślad (C) jest dobrym początkiem, ponieważ jest to ogólna wydajność.

Jeśli wykreślisz swój parametr i jego znaczenie, zobaczysz coś takiego:

x1 =  1.0 ±  0.1 
x2 = 10.0 ±  5.0
x3 =  5.0 ± 15.0 <-- non-significant parameter

Jeśli interesuje Cię ich wzajemna korelacja, taka tabela może przynieść coś interesującego:

x1  1.0
x2  0.9  1.0
x3 -0.3 -0.1  1.0
    x1    x2   x3

Każdy element jest współczynnikiem korelacji między parametrami xi i xj. Z przykładu widać, że parametry x1 i x2 są wysoce skorelowane.

Nali
źródło
1

Ciekawe pytanie, obecnie zmagam się z tym samym problemem! Zależy to od tego, jak zdefiniujesz „najlepszy”, tj. Czy szukasz jakiejś średniej wartości pojedynczej dla spreadu, czy też korelacji między danymi itp. Znalazłem w Press, SJ (1972): Applied Multivariate Analysis, str. 108, że uogólniona wariancja, zdefiniowana jako wyznacznik macierzy kowariancji, jest użyteczna jako pojedyncza miara rozprzestrzeniania. Ale jeśli szukasz korelacji, będę musiał myśleć dalej. Daj mi znać.

Lucozade
źródło
3
Proszę o referencje.
Nick Cox