Szacowanie losowego marszu z AR (1)

10

Kiedy oceniam losowy spacer z AR (1), współczynnik jest bardzo bliski 1, ale zawsze mniejszy.

Jaki jest powód matematyczny, że współczynnik nie jest większy niż jeden?

Marco
źródło
Próbowałem z przybornikiem Matlab, a także ze skryptem na arima (gdzie współczynnik jest ograniczony do [-10,10], a wynik jest taki sam). Próbuję z prostym OLS i wynik jest taki sam.
Marco
Szacunki są tendencyjne w dół, musimy przeczytać artykuł Dickeya i Fullera.
Marco

Odpowiedzi:

12

Szacujemy według OLS model

xt=ρxt-1+ut,mi(ut{xt-1,xt-2),...})=0,x0=0

Dla próbki o rozmiarze T estymatorem jest

ρ^=t=1T.xtxt-1t=1T.xt-12)=ρ+t=1T.utxt-1t=1T.xt-12)

Jeśli prawdziwym mechanizmem generowania danych jest czysty losowy spacer, to iρ=1

xt=xt-1+utxt=ja=1tuja

Rozkład próbek estymatora OLS lub równoważnie, rozkład próbkowania p - 1 , nie jest symetryczny wokół zera, ale raczej jest pochylone w lewo, od zera, przy 68 % uzyskanych wartości (np masy prawdopodobieństwa) jest ujemna, a więc otrzymujemy nie częściej niż ρ < 1 . Oto względny rozkład częstotliwościρ^-168ρ^<1

wprowadź opis zdjęcia tutaj

Oznaczać:-0,0017773Mediana:-0,00085984Minimum: -0,042875Maksymalny: 0,0052173Odchylenie standardowe: 0,0031625Skośność: -2,2568Dawny. kurtoza: 8,3017

Jest to czasami nazywane rozkładem „Dickeya-Fullera”, ponieważ stanowi podstawę wartości krytycznych używanych do wykonywania testów root-root o tej samej nazwie.

Nie przypominam sobie, że dostrzegłem próbę zapewnienia intuicji dla kształtu rozkładu próbkowania. Patrzymy na rozkład próbkowania zmiennej losowej

ρ^-1=(t=1T.utxt-1)(1t=1T.xt-12))

utρ^-1ρ^-1

T.=5

Jeśli zsumujemy niezależne Normy Produktu, otrzymamy rozkład, który pozostaje symetryczny wokół zera. Na przykład:

wprowadź opis zdjęcia tutaj

Ale jeśli zsumujemy niezależne Normy Produktu, tak jak w naszym przypadku, otrzymamy

wprowadź opis zdjęcia tutaj

który jest przekrzywiony w prawo, ale z większą masą prawdopodobieństwa przypisaną wartościom ujemnym. A masa wydaje się być przesuwana jeszcze bardziej w lewo, jeśli zwiększymy wielkość próbki i dodamy więcej skorelowanych elementów do sumy.

Odwrotność sumy nie-niezależnych gamma jest nieujemną zmienną losową z dodatnim przekrzywieniem.

ρ^-1

Alecos Papadopoulos
źródło
Wow, niezła analiza! Czy możesz wskazać, które ze standardowych założeń OLS jest tutaj naruszane?
Richard Hardy
@RichardHardy Thanks. Wrócę później, aby odpowiedzieć na twój komentarz.
Alecos Papadopoulos
Nadal jestem ciekawa założeń OLS ... Z góry dziękuję!
Richard Hardy
Jestem trochę zdezorientowany. W przypadku losowego marszu próbujemy oszacować równanieXt+1=αXt+ϵ, ze względu na współdziałający realtionsip Xt+1-Xtpowinniśmy zbiegać się w superkonsekwentnym tempie. Czy twoja symulacja również wskazuje na niespójność?
Cagdas Ozgenc
@CagdasOzgenc Nie ma czegoś takiego. Cosistency jest cechą asymptotyczną, poniżej przedstawiam, dlaczego w próbkach skończonych powinniśmy uzyskiwaćρ^<1 „częściej niż nie” (ze względu na rozkład estymatora ρ^-1ma większą masę prawdopodobieństwa w liczbach ujemnych).
Alecos Papadopoulos
6

To naprawdę nie jest odpowiedź, ale za długa na komentarz, więc i tak to zamieszczam.

Byłem w stanie uzyskać współczynnik większy niż 1 dwa razy na sto dla próbki o wielkości 100 (używając „R”):

N=100                   # number of trials
T=100                   # length of time series
coef=c()
for(i in 1:N){
 set.seed(i)
 x=rnorm(T)             # generate T realizations of a standard normal variable
 y=cumsum(x)            # cumulative sum of x produces a random walk y
 lm1=lm(y[-1]~y[-T])    # regress y on its own first lag, with intercept
 coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1

Realizacje 84 i 95 mają współczynnik powyżej 1, więc nie zawsze jest poniżej jednego. Jednak wyraźnie widać tendencję do tendencyjnych spadków. Pozostaje pytanie, dlaczego ?

Edycja: powyższe regresje zawierały pojęcie przechwytywania, które wydaje się nie należeć do modelu. Po usunięciu przechwytywania otrzymuję o wiele więcej danych szacunkowych powyżej 1 (3158 na 10000) - ale nadal jest wyraźnie poniżej 50% wszystkich przypadków:

N=10000                 # number of trials
T=100                   # length of time series
coef=c()
for(i in 1:N){
 set.seed(i)
 x=rnorm(T)             # generate T realizations of a standard normal variable
 y=cumsum(x)            # cumulative sum of x produces a random walk y
 lm1=lm(y[-1]~-1+y[-T]) # regress y on its own first lag, without intercept
 coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1
Richard Hardy
źródło
dokładnie nie zawsze „niewielkie”, ale w większości przypadków. To oczywiście fałszywy wynik. dlaczego powód
Marco
2
Współczynnik jest szacowany przez OLS prawie jako korelacja międzyxt i xt-1, co może wyjaśniać dlaczego.
Xi'an