Intuicja / interpretacja rozkładu wartości własnych macierzy korelacji?

13

Jaka jest Twoja intuicja / interpretacja rozkładu wartości własnych macierzy korelacji? Słyszę, że zwykle 3 największe wartości własne są najważniejsze, a te bliskie zeru to hałas. Widziałem także kilka prac badawczych, w których badano, jak naturalnie występujące rozkłady wartości własnych różnią się od tych obliczonych z macierzy korelacji losowej (ponownie, odróżniając szum od sygnału).

Zachęcamy do rozwinięcia swoich spostrzeżeń.

Eduardas
źródło
Czy masz na myśli jakąś konkretną aplikację, czyli czy szukasz ogólnych porad na temat liczby EV, które musimy rozważyć, niezależnie od jakiejkolwiek aplikacji (tj. Czysto matematycznie), czy też powinna ona dotyczyć określonego kontekstu (np. Analiza czynnikowa, PCA itp.)?
chl
Interesuje mnie bardziej strona matematyczna, tj. Wartości własne jako właściwość danych leżących u podstaw macierzy korelacji. Jeśli omawianie tego w kontekście konkretnego kontekstu ma sens, możesz to również zrobić.
Eduardas,

Odpowiedzi:

4

Słyszę, że zwykle 3 największe wartości własne są najważniejsze, a te bliskie zeru to hałas

Możesz to sprawdzić. Zobacz artykuł w tym poście, aby uzyskać więcej szczegółów. Ponownie, jeśli masz do czynienia z szeregami razy finansowych, możesz najpierw skorygować o leptokurtyczność (tj. Rozważ serię zwrotów skorygowanych pod względem skali, a nie surowych).

Widziałem kilka prac badawczych badających, jak naturalnie występujące rozkłady wartości własnych różnią się od tych obliczonych na podstawie macierzy korelacji losowej (ponownie, odróżniając szum od sygnału).

Edward:> Zazwyczaj robi się to w drugą stronę: spójrz na wielowymiarowy rozkład wartości własnych (macierzy korelacji) pochodzących z żądanej aplikacji. Po zidentyfikowaniu wiarygodnego kandydata do dystrybucji wartości własnych, wygenerowanie na ich podstawie powinno być dość łatwe.

Najlepsza procedura określania rozkładu wielowymiarowego wartości własnych zależy od liczby zasobów, które chcesz rozważyć jednocześnie (tj. Jakie są wymiary macierzy korelacji). Jest ładna sztuczka, jeśli ( jest liczbą zasobów).pp10p

Edytuj (komentarze Shabbychef)

czteroetapowa procedura:

  1. Załóżmy, że masz próbki podrzędne danych wielowymiarowych. Potrzebujesz estymatora macierzy wariancji-kowariancji dla każdej podpróbki (możesz użyć klasycznego estymatora lub solidnej alternatywy, takiej jak szybki MCD , który jest dobrze zaimplementowany w Matlabie, SAS, S, R, ...). Jak zwykle, jeśli masz do czynienia z szeregami czasowymi dotyczącymi finansów, powinieneś wziąć pod uwagę szereg zwrotów skorygowanych według skali, a nie zwrotów surowych.˜ C j jj=1,...,JC~jj
  2. Dla każdej podpróbki , oblicz , ..., , wartości własne z .˜ Λ j = log ( ˜ λ j 1 ) log ( ˜ λ j p ) ˜ C jjΛ~j= log(λ~1j)log(λ~pj)C~j
  3. Oblicz , wypukły kadłub macierzy , którego j-ty wpis to (znowu, jest to dobrze zaimplementowane w Matlab, R, ...) .J × p ˜ Λ jCV(Λ~)J×pΛ~j
  4. Narysuj losowo punkty z wnętrza (odbywa się to poprzez wagi do każdej krawędzi gdzie , gdzie jest czerpaniem z rozkładu wykładniczego jednostki (więcej szczegółów tutaj ).w i C V ( ˜ Λ ) w i = γ iCV(Λ~)wiCV(Λ~) γiwi=γii=1pγiγi

Ograniczeniem jest to, że szybkie obliczenia wypukłego kadłuba serii punktów stają się wyjątkowo wolne, gdy liczba wymiarów jest większa niż 10.J2

603
źródło
1
Jestem ciekawy: jaka jest sztuczka?
shabbychef
Czy masz na myśli wektorów własnych o w 3? nie wartości ? C~
shabbychef
Nie. jest skalarem. λ1
user603,
To bardzo dziwna procedura; czy gdzieś został opublikowany?
shabbychef
@Shabbychev:> nie, ale jakiś czas temu miałem okazję pracować nad pokrewnym problemem (po prostu nie jednym z szeregów czasowych) (taki sam problem jak ten stats.stackexchange.com/questions/2572/... )
user603
11

Wartości własne określają wielkości podstawowych składników rozproszenia danych.


(źródło: yaroslavvb.com )
Pierwszy zestaw danych został wygenerowany z Gaussa z macierzą kowariancji drugi zestaw danych to pierwszy zestaw danych obrócony o(3001)π/4

Jarosław Bułatow
źródło
2

Jednym ze sposobów, w jaki badałem ten problem w przeszłości, jest skonstruowanie „portfeli własnych” macierzy korelacji. Oznacza to, że weź wektor własny związany z tą największą wartością własną macierzy korelacji i przeskaluj go do dźwigni brutto równej 1 (tj. Zrób bezwzględną sumę wektora równą jeden). Sprawdź, czy możesz znaleźć rzeczywiste fizyczne lub finansowe powiązanie między akcjami, które mają dużą reprezentację w portfelu.k

Zwykle pierwsze portfel własny ma prawie taką samą wagę pod każdą nazwą, to znaczy portfel „rynkowy” obejmujący wszystkie aktywa o równej wadze dolara. Drugie portfolio własne może mieć znaczenie semantyczne, w zależności od okresu, na który patrzysz: np. Głównie zapasów energii lub zapasów bankowych itp. Z mojego doświadczenia trudno byłoby stworzyć jakąkolwiek historię z piątego portfela własnego lub poza nim, i to zależy w pewnym stopniu od wyboru wszechświata i rozważanego okresu. Jest to w porządku, ponieważ zwykle piąta wartość własna nie jest zbyt daleko poza granicami narzuconymi przez rozkład Marchenko-Pastura.

shabbychef
źródło
1

Każda wartość twoich zmiennych określa punkt w przestrzeni wymiarowej. Ta chmura punktów jest często podobna do elipsoidy (jeśli nie jest, to nie powinieneś uważać zmiennych za liniowo powiązane, a korelacja nie znaczy wiele). Oś elipsoidy odpowiada wektorom własnym macierzy korelacji, a ich „siła” ich wartościom własnym. Dowód można znaleźć w dowolnym podręczniku analizy szeregów czasowych, który obejmuje analizę głównych składników. Luźna intuicja, dlaczego PCA lub inne metody oparte na wartości własnej mają znaczenie, jest taka, że ​​masz jakiś proces, który ma pewne „główne” przyczyny, a reszta to „szum”.NN

Vili
źródło