Regresja zwykła a regresja przy różnicowaniu zmiennych

13

Próbuję po prostu zrozumieć, jaki jest związek między normalną regresją wielokrotną / prostą a regresją wielokrotną / prostą, gdy zmienne są różnicowane.

Na przykład analizuję związek między saldem depozytów ( ) a stopami rynkowymi ( ) Jeśli uruchomię prostą regresję liniową, korelacja jest ujemna i dość znacząca (około -74). Jeśli jednak wezmę dziennik i różnica zmiennej zależnej i różnica zmiennej niezależnej, więc moje równanie jest teraz regresowane za pomocą , moje korelacje i R ^ 2 wcale nie są znaczące ( ).R T dYTRTddln(YT)R 2 = 0,004dR(T)R2=.004

Zastanawiałem się tylko, czy ten niski ogóle coś znaczy? Czy to oznacza, że ​​mój model nie jest dobrze dopasowany, czy też ignoruję gdy patrzę na zróżnicowane dane? Wiem z danych, że istnieje znaczna korelacja między dwiema pierwotnymi zmiennymi, ale w moim modelu muszę spojrzeć na zmienne zróżnicowane, więc zastanawiam się, jak sobie z tym poradzić.R 2R2R2

alex
źródło

Odpowiedzi:

16

Prosta wersja jest taka, że ​​dowolne dwie zmienne, które z czasem zmieniają się w jednym kierunku, wydają się być skorelowane, niezależnie od tego, czy istnieje między nimi jakikolwiek związek. Rozważ następujące zmienne:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

y 1 rok 2 x x y 2 x y 1x jest tylko funkcją czasu, podobnie jak . jest funkcją zarówno czasu, jak i . Chodzi o to, aby rozpoznać na podstawie kodu, że tak naprawdę istnieje relacja między i i że nie ma żadnej zależności między i . Teraz spójrz na poniższy rysunek, wszystkie trzy linie wyglądają okropnie podobnie, prawda?y1y2xxy2xy1

wprowadź opis zdjęcia tutaj

W rzeczywistości wartość dla relacji między i wynosi 98%, a dla i wynosi 99%. Wiemy jednak, że nie ma rzeczywistej zależności między i , podczas gdy istnieje między a x y 1 R 2 x y 2 x y 1 x y 2R2xy1R2xy2xy1xy2, więc jak odróżnić rzeczywisty od zwykłego wyglądu? Tu właśnie pojawia się różnicowanie. W przypadku dowolnych dwóch zmiennych, ponieważ obie mają tendencję do wzrostu w czasie, nie jest to zbyt pouczające, ale biorąc pod uwagę, że jedna zwiększa się o określoną wartość, czy to mówi nam, o ile druga rośnie? Różnicowanie pozwala nam odpowiedzieć na to pytanie. Zwróć uwagę na następujące dwie cyfry, wykresy rozrzutu, które wykonałem po różnicowaniu wszystkich trzech zmiennych.

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Tutaj wyraźnie widzimy, że wiedza o tym, ile poszło w górę, mówi nam coś o tym, ile rośnie ( ), ale że nie jest tak w przypadku i ( ). Zatem odpowiedź na twoje pytanie jest taka, że ​​powinieneś zignorować korelacje między oryginalnymi zmiennymi i spojrzeć na zmienne zróżnicowane. Biorąc pod uwagę, że twój wynosi .004, powiedziałbym, że nie ma rzeczywistego związku. Y 2 R 2 = 0,43 x R 1 R 2 = 0,07 R 2xy2R2=.43xy1R2=.07R2

Kilka innych kwestii: na rysunkach zaznaczam, że są to jednoczesne zmiany. Nie ma w tym nic złego i wynika to ze sposobu, w jaki ustawiłem problem, ale zwykle ludzie są zainteresowani efektami z pewnym opóźnieniem. (Oznacza to, że zmiana jednej rzeczy w pewnym momencie prowadzi do zmiany czegoś innego później.) Po drugie, wspominasz o zapisaniu dziennika jednej z serii. Zapisywanie dziennika po prostu zmienia dane z poziomów na stawki. A zatem, kiedy się różnicujesz, patrzysz na zmiany stawek, a nie na zmiany poziomów. To bardzo częste, ale nie uwzględniłem tego elementu w mojej demonstracji; jest prostopadły do ​​omawianych przeze mnie problemów. Na koniec chcę potwierdzić, że dane szeregów czasowych są często bardziej skomplikowane niż pozwala na to moja demonstracja.

gung - Przywróć Monikę
źródło
10

@gung oferuje miłą odpowiedź, ale chcę zaoferować kilka zastrzeżeń do tego, co sugerujesz.

Różnicowanie stosuje się głównie w celu zwalczania problemu pierwiastków jednostkowych, na przykład, gdy procesem jest AR (1) ze współczynnikiem korelacji wynoszącym 1. Różnicowanie można skutecznie zastosować do usunięcia liniowego trendu czasowego, gdy składnikiem błędu jest biały szum (w w szczególności nie wykazuje korelacji szeregowej), jak pokazuje powyższy @gung. Ale jeśli warunek błędu ma korelację szeregową ze współczynnikiem korelacji mniejszym niż 1 w wartości bezwzględnej, zastosowanie różnicowania w celu usunięcia liniowego trendu czasowego powoduje błędy o bardzo skomplikowanej strukturze. W takim przypadku trudno jest uzyskać dokładne standardowe błędy i wyciągnąć prawidłowe wnioski.

W rezultacie najlepiej najpierw przetestować root root, a jeśli zostanie wykryty, naprawić go przez różnicowanie. Następnie sprawdź liniowy trend czasowy. Rozwiąż ten problem poprzez rezygnację. Nie robiąc tego drugiego, jesteś otwarty na pominięty problem typu zmiennych, który ładnie ilustruje @gung.

Charlie
źródło
1
+1 To miłe uzupełnienie mojej odpowiedzi. Starałem się, aby moja odpowiedź była prosta i intuicyjna. Jednak z pewnością prawdą jest, że jest więcej zawiłości niż mówiłem i że mogą być bardzo ważne. Powinienem był to przyznać w ostatnim akapicie. Dzięki za bycie szczerym.
gung - Przywróć Monikę
1

Gdy celem jest ukształtowanie / zidentyfikowanie związku między dwiema lub więcej seriami, konieczne może być przefiltrowanie stacjonarnej zmiennej X w celu przekształcenia jej w szum. Jest to proces dwuetapowy, wymagane różnicowanie i struktura ARiMR. Aby zachować obiektywizm i uniknąć stronniczości specyfikacji modelu, nie należy zakładać filtra, ale raczej zbudować ten filtr, stosując autokorelacyjną naturę stacjonarnej serii X. Następnie bierze się serię Y i stosuje wszelkie operatory różnicujące, które są konieczne, aby ją unieruchomić, a następnie stosuje wcześniej opracowany filtr do stacjonarnego Y. Ta procedura ma jeden i tylko jeden cel, a mianowicie identyfikację związku między Y i X. Nigdy nie należy wyciągać wniosków na temat wymaganych operatorów różnicujących, filtr ARMA i związek między zmiennymi, chyba że jeden jest ekonometryczny, który zna model, zanim zaobserwuje dane lub jeśli rozmawiasz bezpośrednio z wszechmogącym. Aby uwierzyć w każdy test statystyczny, który można obliczyć, konieczna jest staranna analiza dotycząca normalności wymogu dotyczącego błędów. Obliczanie testów F / testów T jest konieczne, ale niewystarczające. Podsumowując, sugeruję podjęcie tematu „Jak zidentyfikować model funkcji przenoszenia”. Inni i ja zajmowaliśmy się tym tematem wiele razy. Jeśli chcesz, możesz przejrzeć niektóre odpowiedzi na pytania, do których dołączony jest tag „szeregi czasowe”. Jak powiedział Jogin „Możesz dużo obserwować, po prostu czytając / oglądając”. Czasami ładne i proste odpowiedzi mogą doprowadzić cię na manowce, a potencjalnie nadmiernie skomplikowane / konserwatywne odpowiedzi, takie jak moja, mogą wymagać lepszego zrozumienia modeli szeregów czasowych. Jak powiedziano kiedyś „Toto, nie jesteśmy już w Kansas (tj. Dane przekrojowe)!”

IrishStat
źródło