Prosta wersja jest taka, że dowolne dwie zmienne, które z czasem zmieniają się w jednym kierunku, wydają się być skorelowane, niezależnie od tego, czy istnieje między nimi jakikolwiek związek. Rozważ następujące zmienne:
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
y 1 rok 2 x x y 2 x y 1x jest tylko funkcją czasu, podobnie jak . jest funkcją zarówno czasu, jak i . Chodzi o to, aby rozpoznać na podstawie kodu, że tak naprawdę istnieje relacja między i i że nie ma żadnej zależności między i . Teraz spójrz na poniższy rysunek, wszystkie trzy linie wyglądają okropnie podobnie, prawda?y1y2)xxy2)xy1
W rzeczywistości wartość dla relacji między i wynosi 98%, a dla i wynosi 99%. Wiemy jednak, że nie ma rzeczywistej zależności między i , podczas gdy istnieje między a x y 1 R 2 x y 2 x y 1 x y 2R2)xy1R2)xy2xy1xy2, więc jak odróżnić rzeczywisty od zwykłego wyglądu? Tu właśnie pojawia się różnicowanie. W przypadku dowolnych dwóch zmiennych, ponieważ obie mają tendencję do wzrostu w czasie, nie jest to zbyt pouczające, ale biorąc pod uwagę, że jedna zwiększa się o określoną wartość, czy to mówi nam, o ile druga rośnie? Różnicowanie pozwala nam odpowiedzieć na to pytanie. Zwróć uwagę na następujące dwie cyfry, wykresy rozrzutu, które wykonałem po różnicowaniu wszystkich trzech zmiennych.
Tutaj wyraźnie widzimy, że wiedza o tym, ile poszło w górę, mówi nam coś o tym, ile rośnie ( ), ale że nie jest tak w przypadku i ( ). Zatem odpowiedź na twoje pytanie jest taka, że powinieneś zignorować korelacje między oryginalnymi zmiennymi i spojrzeć na zmienne zróżnicowane. Biorąc pod uwagę, że twój wynosi .004, powiedziałbym, że nie ma rzeczywistego związku. Y 2 R 2 = 0,43 x R 1 R 2 = 0,07 R 2xy2R2=.43xy1R2=.07R2
Kilka innych kwestii: na rysunkach zaznaczam, że są to jednoczesne zmiany. Nie ma w tym nic złego i wynika to ze sposobu, w jaki ustawiłem problem, ale zwykle ludzie są zainteresowani efektami z pewnym opóźnieniem. (Oznacza to, że zmiana jednej rzeczy w pewnym momencie prowadzi do zmiany czegoś innego później.) Po drugie, wspominasz o zapisaniu dziennika jednej z serii. Zapisywanie dziennika po prostu zmienia dane z poziomów na stawki. A zatem, kiedy się różnicujesz, patrzysz na zmiany stawek, a nie na zmiany poziomów. To bardzo częste, ale nie uwzględniłem tego elementu w mojej demonstracji; jest prostopadły do omawianych przeze mnie problemów. Na koniec chcę potwierdzić, że dane szeregów czasowych są często bardziej skomplikowane niż pozwala na to moja demonstracja.
Gdy celem jest ukształtowanie / zidentyfikowanie związku między dwiema lub więcej seriami, konieczne może być przefiltrowanie stacjonarnej zmiennej X w celu przekształcenia jej w szum. Jest to proces dwuetapowy, wymagane różnicowanie i struktura ARiMR. Aby zachować obiektywizm i uniknąć stronniczości specyfikacji modelu, nie należy zakładać filtra, ale raczej zbudować ten filtr, stosując autokorelacyjną naturę stacjonarnej serii X. Następnie bierze się serię Y i stosuje wszelkie operatory różnicujące, które są konieczne, aby ją unieruchomić, a następnie stosuje wcześniej opracowany filtr do stacjonarnego Y. Ta procedura ma jeden i tylko jeden cel, a mianowicie identyfikację związku między Y i X. Nigdy nie należy wyciągać wniosków na temat wymaganych operatorów różnicujących, filtr ARMA i związek między zmiennymi, chyba że jeden jest ekonometryczny, który zna model, zanim zaobserwuje dane lub jeśli rozmawiasz bezpośrednio z wszechmogącym. Aby uwierzyć w każdy test statystyczny, który można obliczyć, konieczna jest staranna analiza dotycząca normalności wymogu dotyczącego błędów. Obliczanie testów F / testów T jest konieczne, ale niewystarczające. Podsumowując, sugeruję podjęcie tematu „Jak zidentyfikować model funkcji przenoszenia”. Inni i ja zajmowaliśmy się tym tematem wiele razy. Jeśli chcesz, możesz przejrzeć niektóre odpowiedzi na pytania, do których dołączony jest tag „szeregi czasowe”. Jak powiedział Jogin „Możesz dużo obserwować, po prostu czytając / oglądając”. Czasami ładne i proste odpowiedzi mogą doprowadzić cię na manowce, a potencjalnie nadmiernie skomplikowane / konserwatywne odpowiedzi, takie jak moja, mogą wymagać lepszego zrozumienia modeli szeregów czasowych. Jak powiedziano kiedyś „Toto, nie jesteśmy już w Kansas (tj. Dane przekrojowe)!”
źródło