Nie jestem przyzwyczajony do używania zmiennych w formacie daty w R. Zastanawiam się tylko, czy można dodać zmienną daty jako zmienną objaśniającą w modelu regresji liniowej. Jeśli to możliwe, jak możemy interpretować współczynnik? Czy to wpływ jednego dnia na zmienną wyniku?
Zobacz moją istotę z przykładem tego, co próbuję zrobić.
r
regression
time-series
PAC
źródło
źródło
Odpowiedzi:
Opierając się na wcześniejszych komentarzach na temat przepełnienia stosu:
Tak, to ma sens. Tutaj odnoszę się do ogólnego pytania i cieszę się, że eksperci R mogą podać najważniejsze szczegóły. Moim zdaniem, ponieważ obecnie jest to Cross-Validated, nie powinniśmy zbyt wąsko koncentrować się na ulubionym oprogramowaniu plakatu, choć ważne jest to dla ludzi o podobnych poglądach.
Daty w dowolnym oprogramowaniu, jeśli nie są numeryczne, można konwertować na zmienne numeryczne, wyrażone w latach, dniach, milisekundach lub cokolwiek innego od pewnego czasu. Współczynnik związany z każdą datą ma jednostki mianownika, które są niezależnie od jednostek daty. Jednostki licznika zależą od odpowiedzi lub zmiennej zależnej. (Funkcje łącza niezwiązane z tożsamością komplikują to oczywiście.)
Jednak zwykle najbardziej sensowne jest przesunięcie dat do źródła, które ma sens w badaniu. Zwykle, ale niekoniecznie, źródłem powinna być data w okresie studiów lub bardzo blisko niego.
Być może najprostszym przypadkiem jest regresja liniowa zmiennej daty w latach. Tutaj regresję niektórych
response
nadate
wyrażone jako daty jak 2000 lub 2010 zakłada osią, która jest wartościąresponse
w roku 0. Pomijając calendrical szczegół, że nie było takiego lata, taka osią jest często absurdalnie duży dodatni lub ujemny, co jest logiczne, ale rozpraszające w interpretacji i prezentacji (nawet dla dobrze poinformowanych odbiorców).W prawdziwym przykładzie z pracy z studentami licencjackimi liczba cyklonów rocznie na pewnym obszarze nieznacznie rosła wraz z datą, a liniowy trend wyglądał na rozsądny pierwszy cios. Punkt przecięcia z regresji był dużą liczbą ujemną, co powodowało duże zdziwienie, dopóki nie zorientowano się, że była to jak zawsze ekstrapolacja do roku 0. Przesunięcie źródła do 2000 r. Przyniosło lepsze wyniki. (W rzeczywistości regresja Poissona zapewniająca pozytywne przewidywania była jeszcze lepsza, ale to inna historia).
Regresowanie się na
date - 2000
czymkolwiek innym jest dobrym pomysłem. Merytoryczne szczegóły badania często wskazują na dobrą datę bazową, tj. Nowe pochodzenie.Zastosowanie innych modeli i / lub innych predyktorów nie podważa tej zasady; po prostu to zasłania.
Dobrym pomysłem jest również sporządzenie wykresu wyników przy użyciu dat, o których najłatwiej jest pomyśleć. Mogą to być oryginalne daty; to nie jest sprzeczność, ponieważ jest to ta sama zasada korzystania z tego, co najłatwiejsze do myślenia.
Mała myśl pokazuje, że zasada jest znacznie bardziej ogólna. Często lepiej nam jest z (w wieku 20 lat) lub niektórymi, aby uniknąć logicznych, ale niewygodnych prognoz dla wieku 0.
EDYCJA 21 marca 2019 r. (Oryginał 29 lipca 2013 r.): Te argumenty zostały omówione w kontekście Stata w Cox, NJ 2015. Gatunki pochodzenia. Stata Journal 15: 574-587 patrz tutaj
EDYCJA 2 również 4 grudnia 2015 r. @Whuber w komentarzach porusza także ważną kwestię precyzji liczbowej. Często jednostki czasu są w porządku, a wynikowe daty lub daty mogą być bardzo duże, co podnosi ważne kwestie dla sum kwadratów i tak dalej. Podaje przykład z R. Do tego możemy dodać (np.), Że daty w Stacie są milisekundami od początku 1960 roku. Ten problem wcale nie jest specyficzny dla dat, ponieważ może się generalnie przy liczbach, które są bardzo duże lub bardzo małe, ale warto też oflagować.
źródło
R
Jak powiedziano powyżej, przy odpowiednim skalowaniu daty są świetnymi regresorami. Efekty czasowe rzadziej są liniowe niż nawet typowe zmienne towarzyszące, więc prawie zawsze używam splajnów regresji w czasie. Niektóre złożone trendy czasowe wymagają dopasowania wielu węzłów (np. 7 lub więcej). Ograniczone splajny sześcienne (splajny naturalne) zapewniają bezpieczniejszą ekstrapolację liniową poza końcem zaobserwowanych czasów, chociaż ekstrapolacja rzadko jest całkowicie bezpieczna.
źródło