Czy warto stosować zmienną daty w regresji?

17

Nie jestem przyzwyczajony do używania zmiennych w formacie daty w R. Zastanawiam się tylko, czy można dodać zmienną daty jako zmienną objaśniającą w modelu regresji liniowej. Jeśli to możliwe, jak możemy interpretować współczynnik? Czy to wpływ jednego dnia na zmienną wyniku?

Zobacz moją istotę z przykładem tego, co próbuję zrobić.

PAC
źródło
3
Datę można przekonwertować na liczbę.
mam wrażenie, że R robi to automatycznie
PAC
3
Ale wynikowe liczby są często ogromne, co może prowadzić do problemów. Lepiej przekonwertować siebie, np. Na przedziały czasowe (godziny, dni lub ...) od początku pomiarów. Ułatwia to również interpretację przechwytywania.
Roland,
3
Konwertuj na czynnik (aby uzyskać efekty ustalone na dzień) lub konwertuj na wartość liczbową i przeskaluj, więc wartość pierwszego dnia wynosi 0, aby uzyskać liniowy efekt dni od początku.
Thomas
1
To naprawdę dobre pytanie. Myślę, że jest to zarówno pytanie statystyczne, jak i programistyczne. Pytanie programujące dotyczy tego, w jaki sposób R radzi sobie z datami, kiedy umieszczamy daty jako zmienną objaśniającą w modelu regresji, a pytanie statystyczne dotyczy dokładnej interpretacji współczynnika.
PAC

Odpowiedzi:

17

Opierając się na wcześniejszych komentarzach na temat przepełnienia stosu:

Tak, to ma sens. Tutaj odnoszę się do ogólnego pytania i cieszę się, że eksperci R mogą podać najważniejsze szczegóły. Moim zdaniem, ponieważ obecnie jest to Cross-Validated, nie powinniśmy zbyt wąsko koncentrować się na ulubionym oprogramowaniu plakatu, choć ważne jest to dla ludzi o podobnych poglądach.

Daty w dowolnym oprogramowaniu, jeśli nie są numeryczne, można konwertować na zmienne numeryczne, wyrażone w latach, dniach, milisekundach lub cokolwiek innego od pewnego czasu. Współczynnik związany z każdą datą ma jednostki mianownika, które są niezależnie od jednostek daty. Jednostki licznika zależą od odpowiedzi lub zmiennej zależnej. (Funkcje łącza niezwiązane z tożsamością komplikują to oczywiście.)

Jednak zwykle najbardziej sensowne jest przesunięcie dat do źródła, które ma sens w badaniu. Zwykle, ale niekoniecznie, źródłem powinna być data w okresie studiów lub bardzo blisko niego.

Być może najprostszym przypadkiem jest regresja liniowa zmiennej daty w latach. Tutaj regresję niektórych responsena datewyrażone jako daty jak 2000 lub 2010 zakłada osią, która jest wartościąresponse w roku 0. Pomijając calendrical szczegół, że nie było takiego lata, taka osią jest często absurdalnie duży dodatni lub ujemny, co jest logiczne, ale rozpraszające w interpretacji i prezentacji (nawet dla dobrze poinformowanych odbiorców).

W prawdziwym przykładzie z pracy z studentami licencjackimi liczba cyklonów rocznie na pewnym obszarze nieznacznie rosła wraz z datą, a liniowy trend wyglądał na rozsądny pierwszy cios. Punkt przecięcia z regresji był dużą liczbą ujemną, co powodowało duże zdziwienie, dopóki nie zorientowano się, że była to jak zawsze ekstrapolacja do roku 0. Przesunięcie źródła do 2000 r. Przyniosło lepsze wyniki. (W rzeczywistości regresja Poissona zapewniająca pozytywne przewidywania była jeszcze lepsza, ale to inna historia).

Regresowanie się na date - 2000czymkolwiek innym jest dobrym pomysłem. Merytoryczne szczegóły badania często wskazują na dobrą datę bazową, tj. Nowe pochodzenie.

Zastosowanie innych modeli i / lub innych predyktorów nie podważa tej zasady; po prostu to zasłania.

Dobrym pomysłem jest również sporządzenie wykresu wyników przy użyciu dat, o których najłatwiej jest pomyśleć. Mogą to być oryginalne daty; to nie jest sprzeczność, ponieważ jest to ta sama zasada korzystania z tego, co najłatwiejsze do myślenia.

Mała myśl pokazuje, że zasada jest znacznie bardziej ogólna. Często lepiej nam jest z (w wieku 20 lat) lub niektórymi, aby uniknąć logicznych, ale niewygodnych prognoz dla wieku 0.

EDYCJA 21 marca 2019 r. (Oryginał 29 lipca 2013 r.): Te argumenty zostały omówione w kontekście Stata w Cox, NJ 2015. Gatunki pochodzenia. Stata Journal 15: 574-587 patrz tutaj

EDYCJA 2 również 4 grudnia 2015 r. @Whuber w komentarzach porusza także ważną kwestię precyzji liczbowej. Często jednostki czasu są w porządku, a wynikowe daty lub daty mogą być bardzo duże, co podnosi ważne kwestie dla sum kwadratów i tak dalej. Podaje przykład z R. Do tego możemy dodać (np.), Że daty w Stacie są milisekundami od początku 1960 roku. Ten problem wcale nie jest specyficzny dla dat, ponieważ może się generalnie przy liczbach, które są bardzo duże lub bardzo małe, ale warto też oflagować.

Nick Cox
źródło
1
Ekonometrycznie rzecz biorąc, data jest często używana jako proxy dla niezmierzalnej zmiennej lub po prostu danych, których nie można łatwo uzyskać. Widać to po zwiększonym tempie sprzedaży określonego produktu z nowej firmy w miarę wzrostu rozpoznawalności marki. Ponieważ najprawdopodobniej nie masz danych umożliwiających rozpoznanie marki, datę można wykorzystać jako przybliżenie. To dałoby innym regresorom „bardziej realistyczne” współczynniki. ** TL: DR ** powinieneś ostrożnie stosować datę w regresji, nie zastanawiając się, z jakimi nieokreślonymi czynnikami data może być skorelowana, co wpłynęłoby na twoją zmienną niezależną
Scott
1
Dobra rada. Przypuszczam, że (funkcja) data kalendarzowa jest zwykle zastępstwem dla pewnego procesu w czasie, który w innym przypadku jest trudny do uchwycenia, więc punkt ten wykracza daleko poza ekonometrię.
Nick Cox
1
Podoba mi się sinus i cosinus jak wszyscy, ale jakie próbkowanie problemów w różnych dyscyplinach prowadzi do takiego osądu?
Nick Cox
1
W razie zainteresowania zobacz stata-journal.com/sjsearch.html?choice=keyword&q=season, aby znaleźć linki do niektórych moich prac dotyczących sezonowości.
Nick Cox,
3
R1
5

Jak powiedziano powyżej, przy odpowiednim skalowaniu daty są świetnymi regresorami. Efekty czasowe rzadziej są liniowe niż nawet typowe zmienne towarzyszące, więc prawie zawsze używam splajnów regresji w czasie. Niektóre złożone trendy czasowe wymagają dopasowania wielu węzłów (np. 7 lub więcej). Ograniczone splajny sześcienne (splajny naturalne) zapewniają bezpieczniejszą ekstrapolację liniową poza końcem zaobserwowanych czasów, chociaż ekstrapolacja rzadko jest całkowicie bezpieczna.

Frank Harrell
źródło