Odpowiednia miara, aby znaleźć najmniejszą macierz kowariancji

10

W podręczniku, który czytam, używają one pozytywnej definitywności (półdodatniej definitywności) do porównania dwóch macierzy kowariancji. Pomysł jest, że jeśli jest Pd następnie jest mniejsza niż . Ale walczę o intuicję tego związku?ABBA

Istnieje podobny wątek tutaj:

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

Jaka jest intuicja używania definitywności do porównywania macierzy?

Chociaż odpowiedzi są miłe, tak naprawdę nie odnoszą się do intuicji.

Oto przykład, który wydaje mi się mylący:

[1612129][1224]

teraz tutaj wyznacznikiem różnicy jest -25, więc relacja nie jest pd ani nawet psd, a więc pierwsza macierz nie jest większa niż pierwsza?

Chcę po prostu porównać dwie macierze kowariancji 3 * 3, aby zobaczyć, która jest najmniejsza? Bardziej intuicyjne wydaje mi się użycie czegoś takiego jak norma euklidesowa do ich porównania? Oznaczałoby to jednak, że pierwsza macierz powyżej jest większa niż druga macierz. Co więcej, widzę tylko kryterium pd / psd stosowane do porównywania macierzy kowariancji.

Czy ktoś może wyjaśnić, dlaczego pd / psd jest lepszy niż użycie innej miary, takiej jak norma euklidesowa?

Wysłałem również to pytanie na forum matematyczne (nie byłem pewien, co jest najlepsze), mam nadzieję, że nie narusza to żadnych zasad.

/math/628135/comparing-two-covariance-matrices

Baz
źródło
2
Możesz przeczytać to, gdy bierze się pod uwagę intuicję stojącą za pozytywną (pół) definitywnością. Gdy porównasz 2 wariancje ai bjeśli a-bjest dodatnia, powiedzielibyśmy, że po usunięciu zmienności bz aniej pozostaje trochę „prawdziwej” zmienności a. Podobnie jest w przypadku wariancji wielowymiarowych (= macierze kowariancji) Ai B. Jeśli A-Bjest pozytywnie określony, oznacza to, że A-Bkonfiguracja wektorów jest „rzeczywista” w przestrzeni euklidesowej: innymi słowy, po usunięciu Bz Aniej ta ostatnia nadal jest realną zmiennością.
ttnphns
2
Co pan na myśli przez „najmniejszy” dwóch macierzy kowariancji?
whuber
Cześć whuber, macierze kowariancji odnoszą się do konkurujących estymatorów, chcę wybrać estymator, który ma najmniejszą wariancję. (Czy to wyjaśnia?)
Baz
2
Baz: Dlaczego więc nie porównać bezpośrednio wariancji estymatorów?
Glen_b
Cześć, ustawiono metodę, podano wyrażenie, które nazywają wariancją (która obejmuje kowariancje). Jednak nawet gdybym porównał tylko wariancje, nadal wymagałoby to porównania wartości wektorów, które będą miały podobne problemy do porównania wartości macierzy?
Baz

Odpowiedzi:

8

Kolejność macierzy, o której mówisz, jest znana jako kolejność Loewnera i jest to częściowa kolejność, często używana w badaniu pozytywnych określonych macierzy. Dostępna jest tutaj obróbka geometrii długości książki na rozmaitości macierzy z dodatnimi (posdef) .

Najpierw spróbuję odpowiedzieć na twoje pytanie dotyczące intuicji . Macierz (symetryczna) jest posdef, jeśli dla wszystkich . Jeśli jest zmienną losową (rv) z macierzą kowariancji , to jest (proporcjonalne do) jego projekcji w jakiejś podprzestrzeni o jednym przyciemnieniu, a . Stosując to do w swoim Q, po pierwsze: jest to macierz kowariancji, po drugie: zmienna losowa z macierzą kowariancji rzutuje we wszystkich kierunkach z mniejszą wariancją niż rv z macierzą kowariancjiAcTAc0cRnXAcTXVar(cTX)=cTAcABBAA. Wyjaśnia to intuicyjnie, że to uporządkowanie może być tylko częściowe, istnieje wiele rv, które będą wyświetlać w różnych kierunkach z bardzo różnymi wariancjami. Twoja propozycja niektórych norm euklidesowych nie ma tak naturalnej interpretacji statystycznej.

Twój „mylący przykład” jest mylący, ponieważ obie macierze mają wyznacznik zero. Dla każdego z nich istnieje jeden kierunek (wektor własny z wartością własną zero), w którym zawsze rzutuje na zero . Ale ten kierunek jest inny dla dwóch macierzy, dlatego nie można ich porównywać.

Rząd Loewnera jest zdefiniowany w taki sposób, że , jest bardziej dodatni określony niż , jeśli jest posdef. Jest to porządek częściowy, dla niektórych macierzy posdef ani ani nie jest posdef. Przykład: Jeden ze sposobów pokazanie tego graficznie rysuje wykres z dwoma elipsami, ale wyśrodkowany na początku, powiązany w standardowy sposób z macierzami (wówczas odległość promieniowa w każdym kierunku jest proporcjonalna do wariancji rzutowania w tym kierunku):ABBABABAAB

A=(10.50.51),B=(0.5001.5)

Dwie macierze posdef pokazane jako elipsy

W takim przypadku dwie elipsy są zgodne, ale obracają się inaczej (w rzeczywistości kąt wynosi 45 stopni). Odpowiada to temu, że macierze i mają te same wartości własne, ale wektory własne są obracane.AB

Ponieważ odpowiedź ta zależy w dużej mierze od właściwości elips, następujące Na jakiej intuicji kryją się warunkowe rozkłady Gaussa? geometryczne objaśnienie elips może być pomocne.

Teraz wyjaśnię, w jaki sposób definiowane są elipsy powiązane z macierzami. Macierz posdef definiuje postać kwadratową . Można to wykreślić jako funkcję, wykres będzie kwadratowy. Jeśli to wykres zawsze będzie powyżej wykresu . Jeśli wycinamy wykresy płaszczyzną poziomą na wysokości 1, wówczas cięcia będą opisywać elipsy (w rzeczywistości jest to sposób definiowania elips). Te wycięte elipsy są podane przez równania i widzimy, żeAQA(c)=cTAcABQBQA

QA(c)=1,QB(c)=1
ABodpowiada elipsie B (teraz z wnętrzem) jest zawarty w elipsie A. Jeśli nie ma porządku, nie będzie żadnej ochrony. Zauważamy, że kolejność włączenia jest odwrotna do częściowej kolejności Loewnera, jeśli nie lubimy tego, możemy narysować elipsy odwrotności. Jest tak, ponieważ jest równoważne . Ale pozostanę przy elipsach określonych tutaj.ABB1A1

Elipsa może być opisana półosiami i ich długością. Omówimy tutaj tylko , ponieważ są to te, które możemy narysować ... Potrzebujemy więc dwóch głównych osi i ich długości. Można to znaleźć, jak wyjaśniono tutaj za pomocą składowej macierzy posdef. Następnie główne osie są podawane przez wektory własne, a ich długość można obliczyć z wartości własnych przez Widzimy również, że obszar elipsy reprezentującej to .2×2a , b λ 1 , λ 2 a = a,bλ1,λ2

a=1/λ1,b=1/λ2.
ZAπzab=π1/λ11/λ2)=πdetZA

Podam ostatni przykład, w którym można zamówić matryce:

Dwie macierze, które można zamówić, wykreślone jako elipsy

Dwiema macierzami w tym przypadku były:

A=(2/31/51/53/4),B=(11/71/71)

kjetil b halvorsen
źródło
3

@kjetil b halvorsen daje miłą dyskusję na temat geometrycznej intuicji stojącej za pozytywną półokreślonością jako częściowego uporządkowania. Bardziej niechlujne podejście przyjmie tę samą intuicję. Jeden, który opiera się na rodzajach obliczeń, które możesz chcieć zrobić z macierzami wariancji.

Załóżmy, że masz dwie losowe zmienne i . Jeśli są skalarami, możemy obliczyć ich wariancje jako skalary i porównać je w oczywisty sposób, używając skalarnych liczb rzeczywistych i . Więc jeśli i , mówimy, że zmienna losowa ma mniejszą wariancję niż .xyV(x)V(y)V(x)=5V(y)=15xy

Z drugiej strony, jeśli i są wartościami wektora zmiennych losowych (powiedzmy, że są dwie wektory), w jaki sposób możemy porównać ich wariancji nie jest tak oczywista. Powiedzmy, że ich wariancje to: Jak porównujemy wariancje tych dwóch losowych wektorów? Jedyne, co moglibyśmy zrobić, to po prostu porównać wariancje ich poszczególnych elementów. Możemy więc powiedzieć, że wariancja jest mniejsza niż wariancja po prostu porównując liczby rzeczywiste, takie jak: ixy

V(x)=[10.50.51]V(y)=[8336]
x1y1V(x1)=1<8=V(y1)V(x2)=1<6=V(y2). Więc może moglibyśmy powiedzieć, że wariancja jest wariancji jeśli wariancja każdego elementu jest wariancji odpowiedniego elementu . To byłoby jak powiedzenie jeśli każdy z elementów ukośnych jest odpowiadającym elementem ukośnym .xyxyV(x)V(y)V(x)V(y)

Ta definicja wydaje się rozsądna na pierwszy rzut oka. Ponadto, o ile rozważane macierze wariancji są ukośne (tzn. Wszystkie kowariancje mają wartość 0), jest to takie samo, jak stosowanie półokreśloności. To znaczy, jeśli wariancje wyglądają jak a następnie mówiąc jest dodatnio-półokreślone (tj. że ) jest dokładnie takie samo jak powiedzenie i . Wszystko wydaje się dobre, dopóki nie wprowadzimy kowariancji. Rozważ ten przykład:

V(x)=[V(x1)00V(x2)]V(y)=[V(y1)00V(y2)]
V(y)V(x)V(x)V(y)V(x1)V(y1)V(x2)V(y2)
V(x)=[10.10.11]V(y)=[1001]
Teraz, używając porównania, które uwzględnia tylko przekątne, powiedzielibyśmy i rzeczywiście nadal jest prawdą, że element po elemencie . To, co może nas niepokoić, to fakt, że jeśli pewną ważoną sumę elementów wektorów, takich jak i , wówczas się na fakt, że chociaż mówimy .V(x)V(y)V(xk)V(yk)3x1+2x23y1+2y2V(3x1+2x2)>V(3y1+2y2)V(x)V(y)

To dziwne, prawda? Gdy i są skalarne, to gwarantuje, że dla dowolnej, nie-losowych , .xyV(x)V(y)aV(ax)V(ay)

Jeśli z jakiegoś powodu interesują nas liniowe kombinacje elementów zmiennych losowych, takie jak to, możemy wzmocnić naszą definicję dla macierzy wariancji. Może chcemy powiedzieć wtedy i tylko wtedy, gdy prawdą jest, że , bez względu na to, jakie liczby stałe i wybieramy. Zauważ, że jest to silniejsza definicja niż definicja tylko po przekątnej, ponieważ jeśli to znaczy , a jeśli to mówi .V(x)V(y)V(a1x1+a2x2)V(a1y1+a2y2)a1a2a1=1,a2=0V(x1)V(y1)a1=0,a2=1V(x2)V(y2)

Ta druga definicja, która mówi wtedy i tylko wtedy, gdy dla każdego możliwego ustalonego wektora , jest zwykłą metodą porównywania wariancji macierze oparte na dodatniej : Spójrz na ostatnie wyrażenie i definicję dodatniej półokreślonej, aby zobaczyć, że definicja dla macierzy wariancji jest wybrana dokładnie, aby zagwarantować, że wtedy i tylko wtedy, gdy dla dowolnego wyboru , tj. gdy jest dodatnie pół -określony.V(x)V(y)V(ax)V(ay)a

V(ay)V(ax)=aV(x)aaV(y)a=a(V(x)V(y))a
V(x)V(y)V(ax)V(ay)a(V(y)V(x))

Tak więc odpowiedź na twoje pytanie brzmi: ludzie twierdzą, że macierz wariancji jest mniejsza niż macierz wariancji jeśli jest dodatnio półokreślona, ponieważ są zainteresowani porównaniem wariancji kombinacji liniowych elementów leżących poniżej wektorów losowych. Wybrana definicja wynika z tego, co jesteś zainteresowany obliczeniem i jak ta definicja pomaga ci w tych obliczeniach.VWWV

Rachunek
źródło