Jak przetestować autokorelację reszt?

23

Mam macierz z dwiema kolumnami, które mają wiele cen (750). Na poniższym obrazku narysowałem resztki następującej regresji liniowej:

lm(prices[,1] ~ prices[,2])

Patrząc na obraz, wydaje się być bardzo silną autokorelacją reszt.

Jak mogę jednak sprawdzić, czy autokorelacja tych reszt jest silna? Jakiej metody powinienem użyć?

Reszty regresji liniowej

Dziękuję Ci!

Dail
źródło
8
Nie musisz testować autokorelacji. Jest tam. Fabuła to pokazuje. Można spojrzeć na funkcję autokorelacji tych reszt (funkcji acf()), ale to po prostu potwierdzi to, co można zobaczyć na własne oczy: korelacje między opóźnionymi resztami są bardzo wysokie.
Wolfgang
@Wolfgang, tak, poprawne, ale muszę to sprawdzić programowo .. Przyjrzę się funkcji acf. Dzięki!
Dail
@Wolfgang, widzę acf (), ale nie widzę żadnej wartości p do zrozumienia, czy istnieje silna korelacja, czy nie. Jak interpretować jego wynik? Dzięki
Dail
Przy H0: korelacja (r) = 0, następnie r następuje po normalnej / t dist ze średnią 0 i wariancją sqrt (liczba obserwacji). Możesz więc uzyskać 95% przedział ufności, używając +/-qt(0.75, numberofobs)/sqrt(numberofobs)
Jim
@ Jim Wariacja korelacji nie jest . Nie ma też odchylenia standardowego . Ale ma w tym . n nnn
Glen_b

Odpowiedzi:

17

Prawdopodobnie jest na to wiele sposobów, ale pierwszy, który przychodzi na myśl, opiera się na regresji liniowej. Możesz regresować kolejne reszty względem siebie i testować znaczny spadek. Jeśli występuje autokorelacja, powinna istnieć liniowa zależność między kolejnymi resztami. Aby zakończyć napisany kod, możesz:

mod = lm(prices[,1] ~ prices[,2])
res = mod$res 
n = length(res) 
mod2 = lm(res[-n] ~ res[-1]) 
summary(mod2)

mod2 jest regresją liniową błędu czasu , , względem błędu czasu , . jeśli współczynnik res [-1] jest znaczący, masz dowody autokorelacji w resztach.ε t t - 1 ε t - 1tεtt1εt1

Uwaga: Domyślnie zakłada się, że reszty są autoregresyjne w tym sensie, że tylko jest ważny przy przewidywaniu . W rzeczywistości zależności mogą być dłuższe. W takim przypadku opisaną przeze mnie metodę należy interpretować jako jednoregulowe przybliżenie autoregresyjne do prawdziwej struktury autokorelacji w . ε t εεt1εtε

Makro
źródło
bardzo dziękuję za przykład. Tylko jedna wątpliwość: Jak mogę sprawdzić, czy res [-1] jest znaczący?
Dail
przetestowałbyś to w taki sam sposób, jak każdy inny współczynnik regresji - spójrz na wartość statystyczną i wartośćptp
Makro
wykonuję szybki test z: lm (rnorm (1000) ~ jitter (1: 1000)) Otrzymuję: resztkowy błąd standardowy: 1,006 na 997 stopniach swobody Wiele R-kwadrat: 0,0003463, Skorygowany R-kwadrat: -0.0006564 Statystyka F : 0.3454 dla 1 i 997 DF, wartość p: 0,5569 wartość p nie może odrzucić hipotezy zerowej
Dail
Makro, przetestowałem resztki wykresu, który narysowałem powyżej, a wynik jest następujący: Błąd resztkowy standardowy: 0,04514 przy 747 stopniach swobody Wielokrotne R-kwadrat: 0,9241, Skorygowane R-kwadrat: 0,924 Statystyka F: 9093 na 1 i 747 DF, wartość p: <2,2e-16, To nie wydaje się bardzo dobre, To jest bardzo dziwne, ponieważ istnieje silna autokorelacja, co mogę zrobić?
Dail
3
Nazywa się to testem Breuscha-Godfreya na autokorelację.
Charlie,
16

Użyj testu Durbin-Watson , zaimplementowanego w pakiecie lmtest .

dwtest(prices[,1] ~ prices[,2])
Rob Hyndman
źródło
bardzo dziwne mam: wartość p <2,2e-16, jak to możliwe? dane wydają się bardzo skorelowane!
Dail
4
Wartość p jest prawdopodobnie związana z uzyskaniem takiej samej korelacji, jak obserwowana, jeśli nie ma prawdziwej korelacji. Jeśli więc p jest bardzo małe, sugeruje to, że w próbce występuje duża korelacja.
Rob Hyndman,
Czy masz na myśli, że wartość p taka jak ta wskazuje, że reszty są bardzo autokorelowane?
Dail
hmm dziwne, spójrz na: imageshack.us/f/59/17671620.png jak to możliwe, że właściwy obraz nie jest autokorelowany?
Dail
: dail Wygląda na to, że lewy obraz ma strukturalną zmianę wariancji (szczegóły w artykule Ruey Tsay „Wartości odstające, przesunięcia poziomów i zmiany wariancji w szeregach czasowych”, Journal of Forecasting, VOl 7, 1-20 (1988)) co w tym przypadku nie „myli” DW być może dlatego, że cały rozkład jest nadal normalny, podczas gdy właściwy obraz ma pewne wizualnie oczywiste (i empirycznie identyfikowalne) anomalie (impulsy), które tworzą nienormalne (leptokurtotyczne patrz wikopedia: rozkład z dodatnim nadmiarem kurtozy nazywa się rozkładem leptokurtycznym), co powoduje spustoszenie w DW
IrishStat
11

Test DW lub test regresji liniowej nie są odporne na anomalie w danych. Jeśli masz impulsy, impulsy sezonowe, przesunięcia poziomu lub lokalne trendy czasowe, testy te są bezużyteczne, ponieważ te nieleczone składniki zwiększają wariancję błędów, powodując w ten sposób przesunięcie w dół testów, powodując (jak się okazało) niepoprawne przyjęcie hipotezy zerowej o braku autokorelacja. Przed tymi dwoma testami lub jakimkolwiek innym testem parametrycznym, który jestem świadomy, należy „udowodnić”, że średnia z reszt nie różni się statystycznie znacząco od 0,0 KAŻDEJ GDZIE, w przeciwnym razie podstawowe założenia są nieważne. Dobrze wiadomo, że jednym z ograniczeń testu DW jest założenie, że błędy regresji są zwykle rozkładane. Uwaga normalnie dystrybuowana oznacza między innymi: Brak anomalii (patrzhttp://homepage.newschool.edu/~canjels/permdw12.pdf ). Dodatkowo test DW testuje tylko autokorelację opóźnienia 1. Twoje dane mogą mieć efekt tygodniowy / sezonowy, a to nie byłoby zdiagnozowane, a ponadto, nieleczone, spowodowałoby odchylenie testu DW.

IrishStat
źródło
jakie są testy do sprawdzenia, czy reszty znacznie różnią się od zera? Jeśli regresja obejmuje przechwytywanie, wówczas średnia resztkowa jest algebraicznie zerowa, więc jestem ciekawy, jak można obejść ten problem.
mpiktas
: mpkitas Jak już wspomniałeś, gdy dodajesz stałą, średnia błędów wynosi na pewno 0,0, ale to nie gwarantuje, że średnia błędów wynosi zero. Na przykład, jeśli seria ma zmianę średniej, ogólna średnia będzie stała, ale da dwa „skupiska” reszt, każda z inną średnią. Szczegółowe informacje można znaleźć w artykule Ruey Tsay „Wartości odstające, przesunięcia poziomów i zmiany wariancji w szeregach czasowych”, Journal of Forecasting, VOl 7, 1-20 (1988). LUB faculty.chicagobooth.edu/ruey.tsay/teaching/uts/lec10-08.pdf LUB Google „automatyczne wykrywanie interwencji”
IrishStat
1
Jest to tylko standardowe założenie „bez pominiętych zmiennych”, które jest implikowane we wszystkich analizach regresji.
Charlie,