Dlaczego losowe spacery są ze sobą powiązane?

27

Zauważyłem, że średnio wartość bezwzględna współczynnika korelacji Pearsona jest stała zbliżona do każdej pary niezależnych losowych spacerów, niezależnie od długości spaceru.0.560.42

Czy ktoś może wyjaśnić to zjawisko?

Spodziewałem się, że korelacje będą się zmniejszać wraz ze wzrostem długości marszu, jak w przypadku dowolnej losowej sekwencji.

Do moich eksperymentów wykorzystałem losowe spacery gaussowskie ze średnią krokową 0 i standardowym odchyleniem krokowym 1.

AKTUALIZACJA:

Zapomniałam centrum danych, to dlaczego było 0.56zamiast 0.42.

Oto skrypt Pythona do obliczania korelacji:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))
Adam
źródło
Moją pierwszą myślą jest to, że wraz ze wzrostem odległości można uzyskać wartości o większej wielkości, a korelacja na to wskazuje.
John Paul,
Ale działałoby to z dowolną losową sekwencją, jeśli dobrze cię rozumiem, ale tylko losowe spacery mają tę stałą korelację.
Adam
4
To nie jest po prostu żadna „losowa sekwencja”: korelacje są niezwykle wysokie, ponieważ każdy termin jest tylko o krok od poprzedniego. Zauważ też, że obliczany przez ciebie współczynnik korelacji nie jest współczynnikiem zmiennych losowych: jest to współczynnik korelacji dla sekwencji (uważany po prostu za sparowane dane), co stanowi dużą formułę obejmującą różne kwadraty i różnice wszystkich warunki w sekwencji.
whuber
10
Czy mówisz o korelacjach między przypadkowymi spacerami (w szeregu nie w ramach jednej serii)? Jeśli tak, to dlatego, że twoje niezależne losowe spacery są zintegrowane, ale nie zintegrowane, co jest dobrze znaną sytuacją, w której pojawią się fałszywe korelacje.
Chris Haug,
8
Jeśli weźmiesz pierwszą różnicę, nie znajdziesz żadnej korelacji. Kluczem jest tutaj brak stacjonarności.
Paul

Odpowiedzi:

24

Twoje niezależne procesy nie są skorelowane! Jeśli i są niezależnymi losowymi ścieżkami:Y tXtYt

  • Współczynnik korelacji bezwarunkowy w czasie nie istnieje. (Nie mów o .)Corr(X,Y)
  • Za każdym razem , nazwa rzeczywiście wynosi 0.Corr ( X t , Y t )tCorr(Xt,Yt)
  • Ale przykładowe statystyki oparte na średnich szeregów czasowych nie zbiegną się do niczego! Przykładowy współczynnik korelacji obliczony na podstawie uśrednienia wielu obserwacji w czasie jest bez znaczenia.

Intuicyjnie możesz zgadnąć (niepoprawnie), że:

  1. Niezależność między dwoma procesami i implikuje, że mają zerową korelację. (Dla dwóch losowych spacerów nie istnieje.){ Y t } Corr ( X , Y ){Xt}{Yt}Corr(X,Y)
  2. Szeregi czasowe, korelacja próbki (tj. Współczynnik korelacji obliczony na podstawie szeregów czasowych, przykładowe statystyki, takie jak ) zbiegnie się ze współczynnikiem korelacji populacji jako . ^ μ X =1ρ^XYρXYTμX^=1Tτ=1TXτρXYT

Problem polega na tym, że żadne z tych stwierdzeń nie jest prawdziwe w przypadku przypadkowych spacerów! (Są prawdziwe w przypadku lepiej zachowanych procesów).

W przypadku procesów niestacjonarnych:

  • Możesz mówić o korelacji między procesami i w dowolnym momencie (np. jest całkowicie sensownym stwierdzeniem.){ Y t } Corr ( X 2 , Y 3 ){Xt}{Yt}Corr(X2,Y3)
  • Ale nie ma sensu mówić o korelacji między dwiema seriami bezwarunkowo na czas! nazwa nie ma dobrze zdefiniowanego znaczenia.Corr(X,Y)

Problemy w przypadku przypadkowego spaceru?

  1. W przypadku losowego marszu bezwarunkowe momenty populacji (tzn. Które nie zależą od czasu ), takie jak nazwa , nie istnieją. (W pewnym sensie są nieskończone.) Podobnie bezwarunkowy współczynnik korelacji między dwoma niezależnymi losowymi ścieżkami nie jest równy zero; w rzeczywistości nie istnieje!E [ X ] ρ X YtE[X]ρXY
  2. Założenia twierdzeń ergodycznych nie mają zastosowania, a różne średnie szeregów czasowych (np. ) nie są zbieżne w niczym jako . T1TτXτT
    • W przypadku sekwencji stacjonarnej średnia szeregów czasowych ostatecznie zbiegnie się ze średnią, która jest bezwarunkowa w czasie. Ale w przypadku niestacjonarnej sekwencji nie ma żadnego środka, który byłby bezwarunkowy na czas!

Jeśli masz różne obserwacje dwóch niezależnych losowych spacerów w czasie (np. , itp. ... i , , ....) i obliczasz współczynnik korelacji próbki, otrzymasz liczbę od do . Ale nie będzie to przybliżenie współczynnika korelacji populacji (który nie istnieje).X 2 Y 1 Y 2 - 1 1X1X2Y1Y211

Zamiast tego (obliczony na podstawie średnich szeregów czasowych od do ) będzie zasadniczo zmienną losową (przyjmującą wartości w ) który odzwierciedla dwie szczególne ścieżki przypadkowe spacery przypadkowe (tj. ścieżki określone przez rysowanie narysowane z przestrzeni próbki .) Mówiąc bardzo swobodnie (i nieprecyzyjnie):t=1t=T[-1,1]OhmOhmρ^XY(T)t=1t=T[1,1]ωΩ

  • Jeśli zarówno jak i w tym samym kierunku, wykryjesz fałszywy pozytywny związek.XtYt
  • Jeśli i w różnych kierunkach, wykryjesz fałszywy negatywny związek.XtYt
  • Jeśli i wystarczająco się błądzą, prawie zerową zależność.XtYt

Możesz Google więcej na ten temat z warunkami spurious regression random walk.

Losowy spacer nie jest stacjonarny, a uśrednianie w czasie nie zbiegnie się z tym, co byś otrzymał, biorąc losowania z przestrzeni próbnej . Jak wspomniano w komentarzach powyżej, możesz wziąć pierwsze różnice a dla losowego spaceru proces ten jest stacjonarny.tωΩΔxt=xtxt1{Δxt}

Pomysł na duży obraz:

Wielokrotne obserwacje w czasie NIE JEST to to samo, co wielokrotne losowanie z przestrzeni próbki!

Przypomnij sobie, że proces stochastyczny z czasem dyskretnym jest funkcją zarówno czasu ( ), jak i przykładowej przestrzeni .{Xt}tNΩ

Aby średnie w czasie zbliżyły się do oczekiwań w przestrzeni próbnej , potrzebujesz stacjonarności i ergodyczności . Jest to podstawowy problem w wielu analizach szeregów czasowych. A losowy spacer nie jest procesem stacjonarnym.tΩ

Połączenie z odpowiedzią WHuber:

Jeśli możesz wziąć średnie dla wielu symulacji (tj. Wziąć wiele losowań z ) zamiast być zmuszonym do przyjmowania średnich dla czasu , pewna liczba problemów zniknie.Ωt

Możesz oczywiście zdefiniować jako przykładowy współczynnik korelacji obliczony na i i będzie to również proces stochastyczny.ρ^XY(t)X1XtY1Yt

Możesz zdefiniować losową zmienną jako:Zt

Zt=|ρ^XY(t)|

W przypadku dwóch losowych spacerów rozpoczynających się od z przyrostami , łatwo jest znaleźć poprzez symulację (tj. Biorąc wiele losowań z .)0N(0,1)E[Z10000]Ω

Poniżej przeprowadziłem symulację 10 000 obliczeń przykładowego współczynnika korelacji Pearsona. Za każdym razem ja:

  • Symulowano dwa losowe spacery o długości 10 000 (z normalnie rozmieszczonymi przyrostami rysuj z ).N(0,1)
  • Obliczono przykładowy współczynnik korelacji między nimi.

Poniżej znajduje się histogram pokazujący rozkład empiryczny dla 10000 obliczonych współczynników korelacji.

wprowadź opis zdjęcia tutaj

Można wyraźnie zaobserwować, że zmienna losowa może być wszędzie w przedziale . W przypadku dwóch stałych ścieżek i współczynnik korelacji próbki nie zbiega się do niczego, gdy zwiększa się długość szeregu czasowego.ρ^XY(10000)[1,1]XY

Z drugiej strony, dla określonego czasu (np. ), współczynnik korelacji próbki jest zmienną losową ze skończoną średnią itp. ... Jeśli wezmę wartość bezwzględną i obliczę średnią dla wszystkich symulacji, obliczam około 0,42. Nie jestem pewien, dlaczego chcesz to zrobić ani dlaczego w ogóle ma to sens ?, ale oczywiście możesz.t=10,000

Kod:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))
Matthew Gunn
źródło
Ponieważ wielkość próby oczywiście nie jest skończona, twoje twierdzenia o różnych nieistniejących ilościach są zastanawiające. Trudno zobaczyć, jak twoje symbole odnoszą się do sytuacji opisanej przez PO.
whuber
Twoja próbka NIGDY NIE przechodzi w nieskończoność! Nie dopóki rysujesz próbki za pomocą komputera ( tylko w czystej matematyce możesz przyjmować takie założenia ). A co to znaczy: ponieważ masz nieskończenie wiele punktów, to się nie zbiega? Gdzie to przeczytałeś?
Mayou36
@whuber Mam nadzieję, że ta wersja jest nieco jaśniejsza. Rozumiem, że OP pyta, dlaczego współczynnik korelacji próbki (oparty na średnich szeregów czasowych) między dwoma skończonymi segmentami losowych spacerów nie jest równy zero, nawet dla szeregów czasowych o ogromnej długości. Podstawowym problemem jest to, że dla przypadkowego spaceru różne momenty populacji nie istnieją, a średnie szeregów czasowych nie zbiegają się do niczego.
Matthew Gunn
Niemniej jednak dla ustalonego wszystko jest skończone. Ponadto oczekiwanie bezwzględnej współczynnika korelacji próbek nie Converge jak wzrasta! Należy również zauważyć, że pytanie dotyczy wartości bezwzględnej tego współczynnika. Jego oczekiwanie (oczywiście) wynosi zero. nn
whuber
1
@whuber Czy masz na myśli ustaloną długość szeregu czasowego , wszystko jest skończone? (tak, zgadzam się z tym.) Oczekiwanie na korelację próbki wynosi zero (tak, zgadzam się z tym). Jak wzrasta jednak, że przykładowy związek jest nie zbiegają się w jednym punkcie. W przypadku dwóch losowych segmentów chodzenia o dowolnej długości współczynnik korelacji próbki nie jest tak daleko od losowego losowania z rozkładu równomiernego na [0, 1] (patrz histogram). tt
Matthew Gunn
15

Matematyka potrzebna do uzyskania dokładnego wyniku jest nieuporządkowana, ale możemy względnie bezboleśnie ustalić dokładną wartość oczekiwanego współczynnika korelacji do kwadratu Pomaga wyjaśnić, dlaczego wciąż wyświetla się wartość blisko i dlaczego zwiększenie długości losowego marszu niczego nie zmieni.1/2n

Istnieje możliwość wprowadzenia w błąd co do standardowych warunków. Bezwzględna korelacja, o której mowa w pytaniu, wraz ze statystykami, które ją tworzą - wariancje i kowariancje - są formułami, które można zastosować do dowolnej pary realizacji przypadkowych spacerów. Pytanie dotyczy tego, co dzieje się, gdy spojrzymy na wiele niezależnych realizacji. W tym celu musimy wziąć pod uwagę oczekiwania dotyczące losowego marszu.


(Edytować)

Zanim przejdziemy dalej, chcę podzielić się z Wami pewnymi spostrzeżeniami graficznymi. Para niezależnych losowych spacerów to losowy spacer w dwóch wymiarach. Możemy wykreślić ścieżkę, która prowadzi od każdego do . Jeśli ta ścieżka zmierza w dół (od lewej do prawej, wykreślona na zwykłych osiach XY), to aby zbadać bezwzględną wartość korelacji , zanegujmy wszystkie wartościWykreśl spacery na osiach o wymiarach zapewniających wartości i równych odchyleń standardowych i nałóż dopasowanie do najmniejszych kwadratów(X,Y)(Xt,Yt)Xt+1,Yt+1YXYYX. Nachylenia tych linii będą bezwzględnymi wartościami współczynników korelacji, wynoszącymi zawsze między a .01

Ten rysunek pokazuje takich spacerów, każdy o długości (ze standardowymi różnicami normalnymi). Małe otwarte kółka oznaczają ich punkty początkowe. Cienie zaznaczają swoje ostateczne położenie.15960

Postać

Te stoki wydają się być dość duże. Idealnie losowe wykresy rozrzutu tych wielu punktów zawsze miałyby zbocza bardzo zbliżone do zera. Gdybyśmy musieli opisać pojawiające się tutaj wzory, moglibyśmy powiedzieć, że większość losowych spacerów 2D stopniowo migruje z jednego miejsca do drugiego. (Jednak niekoniecznie są to lokalizacje początkowe i końcowe!) Mniej więcej w połowie przypadków migracja odbywa się w kierunku ukośnym - a nachylenie jest odpowiednio duże.

Pozostała część tego postu szkicuje analizę tej sytuacji.


Spacer losowy jest sekwencją sum częściowych gdzie są niezależnymi identycznie rozmieszczonymi zmiennymi o zerowej średniej. Niech ich powszechną wariancją będzie .(Xi)(W1,W2,,Wn)Wiσ2

W realizacji takiego marszu „wariancja” byłaby obliczana tak, jakby to był dowolny zestaw danych:x=(x1,,xn)

V(x)=1n(xix¯)2.

Dobrym sposobem na obliczenie tej wartości jest pobranie połowy średniej wszystkich kwadratowych różnic:

V(x)=1n(n1)j>i(xjxi)2.

Gdy jest postrzegane jako wynik przypadkowej spacer w krokach, oczekiwanie to jestxXn

E(V(X))=1n(n1)j>iE(XjXi)2.

Różnice są sumami zmiennych iid,

XjXi=Wi+1+Wi+2++Wj.

Rozwiń kwadrat i weź oczekiwania. Ponieważ są niezależne i mają zero środków, oczekiwania wszystkich krzyżówek są zerowe. To pozostawia tylko warunki takie jak , którego oczekiwanie to . A zatemWkWkσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

Łatwo to wynika

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

Kowariancja między dwiema niezależnymi realizacjami i ponownie w sensie zestawów danych, a nie zmiennych losowych - może być obliczona za pomocą tej samej techniki (ale wymaga to więcej pracy algebraicznej; zaangażowana jest poczwórna suma). W rezultacie oczekiwany kwadrat kowariancji wynosixy

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

W związku z tym oczekiwanie na kwadratowy współczynnik korelacji między i , wzięty do kroków, wynosiXYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

Chociaż nie jest to stałe, szybko zbliża się do wartości granicznej . Jego pierwiastek kwadratowy, około , przybliża zatem oczekiwaną wartość bezwzględną (i nie docenia jej).9/400.47ρ(n)


Jestem pewien, że popełniłem błędy obliczeniowe, ale symulacje potwierdzają asymptotyczną dokładność. W poniższych wynikach pokazujących histogramy dla symulacji każda, pionowe czerwone linie pokazują średnie, a przerywane niebieskie linie pokazują wartość formuły. Oczywiście jest to niepoprawne, ale asymptotycznie ma rację. Najwyraźniej cały rozkład zbliża się do limitu wraz ze wzrostem . Podobnie rozkład(która jest ilością odsetek) zbliży się do limitu.1000 ρ 2 ( n ) n | ρ ( n ) |ρ2(n)1000ρ2(n)n|ρ(n)|

Postać

To jest Rkod do stworzenia figury.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}
Whuber
źródło
Moje oszacowanie oparte na symulacji Monte-Carlo dla wynosi około 0,24 (co wydaje się zgadzać z twoimi wynikami). Zgadzam się z twoją analizą tutaj. Być może docierasz do sposobu, w jaki OP osiąga swój numer (chociaż obliczam około 0,42, a nie 0,56). T = 100E[ρ2]T=100
Matthew Gunn
Jeśli możesz powtarzać losowania z , nie ma nic szczególnego w analizie szeregów czasowych. Kwestie (np. Ergodyczność, stacjonarność itp.) Powstają, gdy można obserwować nowe wartości poprzez przyspieszenie czasu który, jak zakładałem, był tym, co OP chciał uzyskać w ... (ale może nie). X tΩXt
Matthew Gunn
1
+1, ale jaka jest intuicja tego, dlaczego istnieje ta dodatnia wartość asymptotyczna , podczas gdy naiwnie można oczekiwać, że jeśli dwa bardzo długie losowe spacery, powinniśmy mieć korelację bliską zeru, tzn. Naiwnie można oczekiwać rozkładu korelacji skurczyć się do zera, gdy rośnie? n9/40n
ameba mówi Przywróć Monikę
@amoeba Po pierwsze, nie do końca wierzę w wartość , ale wiem, że jest to prawie poprawne. Dla intuicji weź pod uwagę, że dwa niezależne przejścia i są losowym przejściem w dwóch wymiarach. Weź dowolny losowy wykres rozrzutu w 2D i jakoś zmierz jego ekscentryczność. Rzadko będzie idealnie okrągły. Oczekujemy zatem, że średnia ekscentryczność będzie dodatnia. To, że istnieje ograniczony rozkład losowych spacerów, odzwierciedla jedynie samopodobny „fraktalny” charakter tego dwuwymiarowego spaceru. X t T t ( X , T , Y t )9/40XtYt(Xt,Yt)
whuber
2
Analiza asymptotyczna omawianych tu zagadnień znajduje się w Phillips (1986), Theorem 1e .
Christoph Hanck