Zauważyłem, że średnio wartość bezwzględna współczynnika korelacji Pearsona jest stała zbliżona do każdej pary niezależnych losowych spacerów, niezależnie od długości spaceru.0.56
0.42
Czy ktoś może wyjaśnić to zjawisko?
Spodziewałem się, że korelacje będą się zmniejszać wraz ze wzrostem długości marszu, jak w przypadku dowolnej losowej sekwencji.
Do moich eksperymentów wykorzystałem losowe spacery gaussowskie ze średnią krokową 0 i standardowym odchyleniem krokowym 1.
AKTUALIZACJA:
Zapomniałam centrum danych, to dlaczego było 0.56
zamiast 0.42
.
Oto skrypt Pythona do obliczania korelacji:
import numpy as np
from itertools import combinations, accumulate
import random
def compute(length, count, seed, center=True):
random.seed(seed)
basis = []
for _i in range(count):
walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
if center:
walk -= np.mean(walk)
basis.append(walk / np.sqrt(np.dot(walk, walk)))
return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])
print(compute(10000, 1000, 123))
Odpowiedzi:
Twoje niezależne procesy nie są skorelowane! Jeśli i są niezależnymi losowymi ścieżkami:Y tXt Yt
Intuicyjnie możesz zgadnąć (niepoprawnie), że:
Problem polega na tym, że żadne z tych stwierdzeń nie jest prawdziwe w przypadku przypadkowych spacerów! (Są prawdziwe w przypadku lepiej zachowanych procesów).
W przypadku procesów niestacjonarnych:
Problemy w przypadku przypadkowego spaceru?
Jeśli masz różne obserwacje dwóch niezależnych losowych spacerów w czasie (np. , itp. ... i , , ....) i obliczasz współczynnik korelacji próbki, otrzymasz liczbę od do . Ale nie będzie to przybliżenie współczynnika korelacji populacji (który nie istnieje).X 2 Y 1 Y 2 - 1 1X1 X2 Y1 Y2 −1 1
Zamiast tego (obliczony na podstawie średnich szeregów czasowych od do ) będzie zasadniczo zmienną losową (przyjmującą wartości w ) który odzwierciedla dwie szczególne ścieżki przypadkowe spacery przypadkowe (tj. ścieżki określone przez rysowanie narysowane z przestrzeni próbki .) Mówiąc bardzo swobodnie (i nieprecyzyjnie):t=1t=T[-1,1]OhmOhmρ^XY(T) t=1 t=T [−1,1] ω Ω
Możesz Google więcej na ten temat z warunkami
spurious regression random walk
.Losowy spacer nie jest stacjonarny, a uśrednianie w czasie nie zbiegnie się z tym, co byś otrzymał, biorąc losowania z przestrzeni próbnej . Jak wspomniano w komentarzach powyżej, możesz wziąć pierwsze różnice a dla losowego spaceru proces ten jest stacjonarny.t ω Ω Δxt=xt−xt−1 {Δxt}
Pomysł na duży obraz:
Wielokrotne obserwacje w czasie NIE JEST to to samo, co wielokrotne losowanie z przestrzeni próbki!
Przypomnij sobie, że proces stochastyczny z czasem dyskretnym jest funkcją zarówno czasu ( ), jak i przykładowej przestrzeni .{Xt} t∈N Ω
Aby średnie w czasie zbliżyły się do oczekiwań w przestrzeni próbnej , potrzebujesz stacjonarności i ergodyczności . Jest to podstawowy problem w wielu analizach szeregów czasowych. A losowy spacer nie jest procesem stacjonarnym.t Ω
Połączenie z odpowiedzią WHuber:
Jeśli możesz wziąć średnie dla wielu symulacji (tj. Wziąć wiele losowań z ) zamiast być zmuszonym do przyjmowania średnich dla czasu , pewna liczba problemów zniknie.Ω t
Możesz oczywiście zdefiniować jako przykładowy współczynnik korelacji obliczony na i i będzie to również proces stochastyczny.ρ^XY(t) X1…Xt Y1…Yt
Możesz zdefiniować losową zmienną jako:Zt
W przypadku dwóch losowych spacerów rozpoczynających się od z przyrostami , łatwo jest znaleźć poprzez symulację (tj. Biorąc wiele losowań z .)0 N(0,1) E[Z10000] Ω
Poniżej przeprowadziłem symulację 10 000 obliczeń przykładowego współczynnika korelacji Pearsona. Za każdym razem ja:
Poniżej znajduje się histogram pokazujący rozkład empiryczny dla 10000 obliczonych współczynników korelacji.
Można wyraźnie zaobserwować, że zmienna losowa może być wszędzie w przedziale . W przypadku dwóch stałych ścieżek i współczynnik korelacji próbki nie zbiega się do niczego, gdy zwiększa się długość szeregu czasowego.ρ^XY(10000) [−1,1] X Y
Z drugiej strony, dla określonego czasu (np. ), współczynnik korelacji próbki jest zmienną losową ze skończoną średnią itp. ... Jeśli wezmę wartość bezwzględną i obliczę średnią dla wszystkich symulacji, obliczam około 0,42. Nie jestem pewien, dlaczego chcesz to zrobić ani dlaczego w ogóle ma to sens ?, ale oczywiście możesz.t=10,000
Kod:
źródło
Matematyka potrzebna do uzyskania dokładnego wyniku jest nieuporządkowana, ale możemy względnie bezboleśnie ustalić dokładną wartość oczekiwanego współczynnika korelacji do kwadratu Pomaga wyjaśnić, dlaczego wciąż wyświetla się wartość blisko i dlaczego zwiększenie długości losowego marszu niczego nie zmieni.1/2 n
Istnieje możliwość wprowadzenia w błąd co do standardowych warunków. Bezwzględna korelacja, o której mowa w pytaniu, wraz ze statystykami, które ją tworzą - wariancje i kowariancje - są formułami, które można zastosować do dowolnej pary realizacji przypadkowych spacerów. Pytanie dotyczy tego, co dzieje się, gdy spojrzymy na wiele niezależnych realizacji. W tym celu musimy wziąć pod uwagę oczekiwania dotyczące losowego marszu.
(Edytować)
Zanim przejdziemy dalej, chcę podzielić się z Wami pewnymi spostrzeżeniami graficznymi. Para niezależnych losowych spacerów to losowy spacer w dwóch wymiarach. Możemy wykreślić ścieżkę, która prowadzi od każdego do . Jeśli ta ścieżka zmierza w dół (od lewej do prawej, wykreślona na zwykłych osiach XY), to aby zbadać bezwzględną wartość korelacji , zanegujmy wszystkie wartościWykreśl spacery na osiach o wymiarach zapewniających wartości i równych odchyleń standardowych i nałóż dopasowanie do najmniejszych kwadratów(X,Y) (Xt,Yt) Xt+1,Yt+1 Y X Y Y X . Nachylenia tych linii będą bezwzględnymi wartościami współczynników korelacji, wynoszącymi zawsze między a .0 1
Ten rysunek pokazuje takich spacerów, każdy o długości (ze standardowymi różnicami normalnymi). Małe otwarte kółka oznaczają ich punkty początkowe. Cienie zaznaczają swoje ostateczne położenie.15 960
Te stoki wydają się być dość duże. Idealnie losowe wykresy rozrzutu tych wielu punktów zawsze miałyby zbocza bardzo zbliżone do zera. Gdybyśmy musieli opisać pojawiające się tutaj wzory, moglibyśmy powiedzieć, że większość losowych spacerów 2D stopniowo migruje z jednego miejsca do drugiego. (Jednak niekoniecznie są to lokalizacje początkowe i końcowe!) Mniej więcej w połowie przypadków migracja odbywa się w kierunku ukośnym - a nachylenie jest odpowiednio duże.
Pozostała część tego postu szkicuje analizę tej sytuacji.
Spacer losowy jest sekwencją sum częściowych gdzie są niezależnymi identycznie rozmieszczonymi zmiennymi o zerowej średniej. Niech ich powszechną wariancją będzie .(Xi) (W1,W2,…,Wn) Wi σ2
W realizacji takiego marszu „wariancja” byłaby obliczana tak, jakby to był dowolny zestaw danych:x=(x1,…,xn)
Dobrym sposobem na obliczenie tej wartości jest pobranie połowy średniej wszystkich kwadratowych różnic:
Gdy jest postrzegane jako wynik przypadkowej spacer w krokach, oczekiwanie to jestx X n
Różnice są sumami zmiennych iid,
Rozwiń kwadrat i weź oczekiwania. Ponieważ są niezależne i mają zero środków, oczekiwania wszystkich krzyżówek są zerowe. To pozostawia tylko warunki takie jak , którego oczekiwanie to . A zatemWk Wk σ2
Łatwo to wynika
Kowariancja między dwiema niezależnymi realizacjami i ponownie w sensie zestawów danych, a nie zmiennych losowych - może być obliczona za pomocą tej samej techniki (ale wymaga to więcej pracy algebraicznej; zaangażowana jest poczwórna suma). W rezultacie oczekiwany kwadrat kowariancji wynosix y
W związku z tym oczekiwanie na kwadratowy współczynnik korelacji między i , wzięty do kroków, wynosiX Y n
Chociaż nie jest to stałe, szybko zbliża się do wartości granicznej . Jego pierwiastek kwadratowy, około , przybliża zatem oczekiwaną wartość bezwzględną (i nie docenia jej).9/40 0.47 ρ(n)
Jestem pewien, że popełniłem błędy obliczeniowe, ale symulacje potwierdzają asymptotyczną dokładność. W poniższych wynikach pokazujących histogramy dla symulacji każda, pionowe czerwone linie pokazują średnie, a przerywane niebieskie linie pokazują wartość formuły. Oczywiście jest to niepoprawne, ale asymptotycznie ma rację. Najwyraźniej cały rozkład zbliża się do limitu wraz ze wzrostem . Podobnie rozkład(która jest ilością odsetek) zbliży się do limitu.1000 ρ 2 ( n ) n | ρ ( n ) |ρ2(n) 1000 ρ2(n) n |ρ(n)|
To jest
R
kod do stworzenia figury.źródło