Jak wybrać jednostkę analizy (poziom agregacji) w szeregu czasowym?

13

Jeśli potrafisz mierzyć szereg czasowy obserwacji na dowolnym poziomie precyzji w czasie, a twoim celem jest zidentyfikowanie związku między X i Y, czy istnieje jakieś empiryczne uzasadnienie dla wyboru określonego poziomu agregacji nad innym, czy też powinno wybór należy podjąć na podstawie teorii i / lub ograniczeń praktycznych?

Mam trzy pytania częściowe do tego głównego:

  1. Czy jakakolwiek nieprzypadkowa zmiana X lub Y na większym poziomie jest wystarczającym uzasadnieniem, aby wybrać mniejszy poziom agregacji (gdzie nieprzypadkowy jest jakikolwiek wzorzec czasowy obserwacji)?

  2. Czy jakakolwiek zmiana relacji między X i Y na mniejszym poziomie agregacji jest wystarczającym uzasadnieniem dla uzasadnienia mniejszej jednostki analizy? Jeśli jakaś wariacja jest dopuszczalna, jak decyduje się, ile wariacji jest zbyt duża?

  3. Czy ludzie mogą przytoczyć argumenty, które ich zdaniem są przekonujące / dobrze zdefiniowane dla jednej jednostki analizy nad drugą, z powodów empirycznych lub teoretycznych?

Jestem w pełni świadomy problemu modyfikowalnej jednostki powierzchni w analizie przestrzennej ( Openshaw 1984 ). Nie twierdzę, że jestem ekspertem od materiału, ale do tej pory mam tylko na myśli, że mniejsza jednostka analizy jest zawsze lepsza, ponieważ mniej prawdopodobne jest popełnienie błędu ekologicznego ( Robinson 1950 ). Jeśli ktoś ma bezpośrednio istotne odniesienie lub odpowiedź dotyczącą agregacji jednostek geograficznych, doceniłbym również tę odpowiedź.

Andy W.
źródło

Odpowiedzi:

9

Wprowadzenie

Moje zainteresowanie tym tematem wynosi obecnie około 7 lat i zaowocowało to pracą doktorską Szeregi czasowe: agregacja, dezagregacja i długa pamięć , gdzie zwrócono uwagę na konkretne pytanie dotyczące problemu dezagregacji przekrojowej dla schematu AR (1).

Dane

Pracując z różnymi podejściami do agregacji, pierwszym pytaniem, które musisz wyjaśnić, jest rodzaj danych, z którymi masz do czynienia (domyślam się, że są to dane przestrzenne, najbardziej ekscytujące). W praktyce możesz rozważyć agregację czasową (patrz Silvestrini, A. i Veridas, D. (2008) ), przekrój (podobał mi się artykuł Granger, CWJ (1990) ) lub zarówno czas, jak i przestrzeń (agregacja przestrzenna jest ładnie zbadana w Giacomini, R. i Granger, CWJ (2004) ).

Odpowiedzi (długie)

Teraz, odpowiadając na wasze pytania, postawiłem na początku pewną szorstką intuicję. Ponieważ problemy, które napotykam w praktyce, często opierają się na niedokładnych danych (założenie Andy'ego)

możesz mierzyć szereg czasowy obserwacji na dowolnym poziomie precyzji w czasie

wydaje się zbyt silny dla makroekonometrii, ale dobry dla finansów i mikroekonometrii lub jakichkolwiek dziedzin eksperymentalnych, gdybyś całkiem dobrze kontrolował precyzję) Muszę pamiętać, że moje miesięczne szeregi czasowe są mniej dokładne niż w przypadku pracy z dane roczne. Oprócz częstszych szeregów czasowych przynajmniej w makroekonomii występują sezonowe wzorce , które mogą prowadzić do fałszywychwyniki (części sezonowe nie korelują z serią), więc musisz sezonowo dostosowywać swoje dane - kolejne źródło mniejszej precyzji dla danych o wyższej częstotliwości. Praca z danymi przekrojowymi ujawniła, że ​​wysoki poziom dezagregacji stwarza więcej problemów z prawdopodobnie wieloma zerami do rozwiązania. Na przykład określone gospodarstwo domowe w panelu danych może kupować samochód raz na 5–10 lat, ale zagregowane zapotrzebowanie na nowe (używane) samochody jest znacznie bardziej płynne (nawet w małym miasteczku lub regionie).

Najsłabszy punkt agregacja zawsze prowadzi do utraty informacji, możesz mieć PKB wytwarzany przez przekrój krajów UE przez całą dekadę (powiedzmy okres 2001-2010), ale stracisz wszystkie dynamiczne funkcje, które mogą być obecne w Twojej analizie, biorąc pod uwagę szczegółowy zestaw danych panelu. Agregacja przekrojów na dużą skalę może okazać się jeszcze bardziej interesująca: z grubsza bierzesz proste rzeczy (krótka pamięć AR (1)) uśredniasz je w dość dużej populacji i uzyskujesz „reprezentatywny” czynnik długiej pamięci, który nie przypomina mikro jednostki (jeszcze jeden kamień do koncepcji przedstawiciela agenta). Tak więc agregacja ~ utrata informacji ~ różne właściwości obiektów i chcesz przejąć kontrolę nad poziomem tej straty i / lub nowych właściwości. Moim zdaniem lepiej jest mieć dokładne dane na poziomie mikro przy możliwie wysokiej częstotliwości, ale ...

Technicznie wykonując jakąkolwiek analizę regresji, potrzebujesz więcej miejsca (stopni swobody), aby mieć mniej lub więcej pewność, że (przynajmniej) statystycznie twoje wyniki nie są śmieciami, chociaż wciąż mogą być teoretyczne i śmieciami :) Więc ja stawiam na równi wagi do pytania 1 i 2 (zwykle wybierają dane kwartalne do analizy makro). Odpowiadając na trzecie podpytek, decydujesz w praktycznych zastosowaniach, co jest dla Ciebie ważniejsze: dokładniejsze dane lub stopnie swobody. Jeśli weźmiesz pod uwagę wspomniane założenie, preferowane są bardziej szczegółowe dane (lub wyższa częstotliwość).

Prawdopodobnie odpowiedź zostanie zredagowana później po jakiejś dyskusji, jeśli taka istnieje.

Dmitrij Celov
źródło
Dziękuję za odpowiedź. Przetworzenie przedstawionych materiałów zajmie mi co najmniej kilka dni. Chciałbym również powiedzieć, że twoja rozprawa jest niesamowicie miła i po przeczytaniu twojego wstępu nie mogę się doczekać, aby przeczytać resztę.
Andy W