Jak poprawnie używać korelacji Pearsona z szeregami czasowymi

47

Mam 2 szeregi czasowe (oba gładkie), które chciałbym skorelować krzyżowo, aby zobaczyć, jak są skorelowane.

Zamierzam użyć współczynnika korelacji Pearsona. Czy to jest właściwe?

Moje drugie pytanie polega na tym, że mogę wybrać próbkowanie 2 szeregów czasowych, tak jak lubię. tzn. mogę wybrać, ile punktów danych będę dla nas. Czy wpłynie to na uzyskany współczynnik korelacji? Czy muszę to uwzględnić?

Dla celów ilustracyjnych

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  
użytkownik1551817
źródło
1
Jaka jest natura szeregów czasowych? Czy to losowy spacer? Nieruchomy? Serie ekonomiczne?
Aksakal

Odpowiedzi:

72

Pearson korelacja jest używany, aby spojrzeć na korelacji pomiędzy serii ... ale jako seria czasu korelacja jest spojrzał na różnych opóźnień - na funkcję korelacji krzyżowej .

Na korelację krzyżową ma wpływ zależność między szeregami, dlatego w wielu przypadkach zależność między szeregami powinna zostać usunięta w pierwszej kolejności. Aby więc użyć tej korelacji, zamiast wygładzania serii, w rzeczywistości bardziej powszechne (ponieważ ma sens) jest spojrzenie na zależność między resztami - szorstka część, która pozostaje po znalezieniu odpowiedniego modelu dla zmiennych.

Prawdopodobnie chcesz zacząć od podstawowych zasobów modeli szeregów czasowych, zanim zaczniesz zastanawiać się, czy korelacja Pearsona w (przypuszczalnie) niestacjonarnych, wygładzonych szeregach jest możliwa do interpretacji.

W szczególności, prawdopodobnie będziesz chciał zajrzeć do zjawiska tutaj . [W szeregach czasowych jest to czasem nazywane korelacją pozorną , chociaż artykuł Wikipedii na temat fałszywej korelacji ma wąski pogląd na użycie tego terminu w sposób, który wydaje się wykluczać jego użycie. Prawdopodobnie znajdziesz więcej informacji na temat omawianych tutaj problemów, przeszukując zamiast tego fałszywą regresję .]

[Edytuj - krajobraz Wikipedii ciągle się zmienia; powyższy ust. prawdopodobnie powinien zostać zmieniony, aby odzwierciedlić to, co jest teraz.]

np. zobacz kilka dyskusji

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (cytat otwierający Yule, w artykule zaprezentowanym w 1925 r., ale opublikowanym w następnym roku, dość dobrze podsumowuje problem)

  2. Christos Agiakloglou i Apostolos Tsimpanos, fałszywe korelacje dla stacjonarnych procesów AR (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (to pokazuje, że można nawet uzyskać problem między seriami stacjonarnymi; stąd tendencja do wcześniejszej bielizny)

  3. Klasyczne odniesienie do Yule, (1926) [1] wspomniane powyżej.

Przydatna może być tutaj również dyskusja tutaj

-

Używanie korelacji Pearsona w znaczący sposób między szeregami czasowymi jest trudne, a czasem zaskakująco subtelne.


Szukałem fałszywej korelacji, ale nie dbam o to, czy moja seria A jest przyczyną mojej serii B lub odwrotnie. Chcę tylko wiedzieć, czy możesz dowiedzieć się czegoś o serii A, patrząc na to, co robi seria B (lub odwrotnie). Innymi słowy - czy mają korelację?

Zwróć uwagę na mój poprzedni komentarz na temat wąskiego użycia terminu fałszywa korelacja w artykule w Wikipedii.

Istotą fałszywej korelacji jest to, że szeregi mogą wydawać się skorelowane, ale sama korelacja nie jest znacząca. Rozważmy, jak dwie osoby rzucają dwiema odrębnymi monetami, licząc do tej pory liczbę głów minus liczba ogonów do tej samej wartości ich serii.

HTHH...1,0,1,2,...

Oczywiście nie ma żadnego związku między tymi dwoma seriami. Najwyraźniej żadne nie może powiedzieć ci pierwszej rzeczy o drugiej!

Ale spójrz na rodzaj korelacji między parami monet:

wprowadź opis zdjęcia tutaj

Gdybym nie powiedział ci, co to są, a sam wziąłbyś parę tych serii, byłyby to imponujące korelacje, prawda?

Ale wszystkie są bez znaczenia . Zupełnie fałszywe. Żadna z tych trzech par nie jest tak naprawdę bardziej pozytywnie lub negatywnie spokrewniona ze sobą niż jakakolwiek inna - to tylko nagromadzony hałas . Nieprawdziwość nie tylko przewidywania, cała idea od rozpatrywania stowarzyszenie między serii bez uwzględnienia zależności wewnątrz-serii jest niesłuszna.

Wszystko , co tu masz, to zależność między seriami . Nie ma żadnej faktycznej relacji między seriami.

Gdy właściwie poradzisz sobie z problemem, który sprawia, że ​​te serie są automatycznie zależne - wszystkie są zintegrowane ( losowe spacery Bernoulliego ), więc musisz je rozróżnić - „pozorne” skojarzenie znika (największa absolutna korelacja między seriami wszystkich trzech wynosi 0,048).

To, co mówi ci, to prawda - pozorne skojarzenie jest jedynie iluzją spowodowaną zależnością między szeregami.

Pytanie brzmiało: „jak poprawnie używać korelacji Pearsona z szeregami czasowymi” - więc proszę zrozumieć: jeśli istnieje zależność między szeregami i nie poradzisz sobie z nią wcześniej, nie będziesz jej używać poprawnie.

Ponadto wygładzanie nie zmniejszy problemu zależności szeregowej; wręcz przeciwnie - jeszcze gorzej! Oto korelacje po wygładzeniu (domyślnie less less smooth - szeregu vs indeks - wykonywane w R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Wszyscy zbliżyli się do zera. Wszyscy wciąż są niczym innym jak bezsensownym hałasem , choć teraz jest to wygładzony, skumulowany hałas. (Wygładzając, zmniejszamy zmienność szeregów, które umieszczamy w obliczeniach korelacji, dlatego może to być powód, dla którego korelacja rośnie).

[1]: Yule, GU (1926) „Dlaczego czasami otrzymujemy nonsensowne korelacje między szeregami czasowymi?” J.Roy.Stat.Soc. , 89 , 1 , s. 1-63

Glen_b
źródło
Dziękuję za świetną odpowiedź. Szukałem fałszywej korelacji, ale nie dbam o to, czy moja seria A jest przyczyną mojej serii B lub odwrotnie. Chcę tylko wiedzieć, czy możesz dowiedzieć się czegoś o serii A, patrząc na to, co robi seria B (lub odwrotnie). Innymi słowy - czy mają korelację?
user1551817
Proszę zobaczyć moją zaktualizowaną odpowiedź.
Glen_b
2
„… więc musisz je odróżnić…” co to dokładnie znaczy? Być może je różnicujesz? ..
Georgios Pligoropoulos
1
Różnice - patrz Wikipedia tutaj lub w tej części książki Prognozowanie, zasady i praktyka . W kolejnym pytaniu pozostała część cytowanego akapitu wyraźnie to mówi. (Nie jest to jednak jedyna możliwość, opisująca tylko jedną dość powszechną rzecz, która została zrobiona)
Glen_b
1
Znalazłem inną wersję artykułu i dodałem tytuł oraz autorów
Glen_b
6

(St)1tTXt=StSt1), które są (w przypadku spacerów losowych) niezależne i identycznie rozmieszczone. Sugeruję, abyś użył korelacji Spearmana lub Kendalla, ponieważ są one bardziej odporne niż współczynnik Pearsona. Pearson mierzy zależność liniową, podczas gdy miara Spearmana i Kendalla są niezmienne przez monotonne transformacje twoich zmiennych.

Wyobraź sobie również, że dwa szeregi czasowe są silnie zależne, powiedzmy, że poruszają się razem w górę i spadają razem, ale jeden przechodzi czasem silne zmiany, a drugi ma zawsze łagodne zmiany, twoja korelacja Pearsona będzie raczej niska w przeciwieństwie do Spearmana i Kendalla (które są lepszymi szacunkami zależności między szeregami czasowymi).

W celu dokładnego potraktowania tego i lepszego zrozumienia zależności można spojrzeć na Teorię Copuli i zastosowanie do szeregów czasowych .

mikrofon
źródło
4

Dane szeregów czasowych zależą zwykle od czasu. Korelacja Pearsona jest jednak odpowiednia dla niezależnych danych. Ten problem jest podobny do tak zwanej regresji pozornej. Współczynnik prawdopodobnie będzie bardzo znaczący, ale wynika to wyłącznie z trendu czasowego danych, który wpływa na obie serie. Zalecam modelowanie danych, a następnie spróbuj sprawdzić, czy modelowanie daje podobne wyniki dla obu serii. Jednak zastosowanie współczynnika korelacji Pearsona najprawdopodobniej da mylące wyniki w interpretacji struktury zależności.

losowa osoba
źródło