Kiedy konieczne jest uwzględnienie opóźnienia zmiennej zależnej w modelu regresji, a które to opóźnienie?

14

Dane, które chcemy wykorzystać jako zmienną zależną, wyglądają tak (są to dane zliczające). Obawiamy się, że skoro ma ona składową cykliczną i strukturę trendu, regresja okazuje się w jakiś sposób stronnicza.

wprowadź opis zdjęcia tutaj

W razie potrzeby zastosujemy ujemną regresję dwumianową. Dane to zrównoważony panel, jeden manekin na osobę (stany). Pokazany obraz pokazuje sumę zmiennej zależnej dla wszystkich stanów, ale większość stanów ma podobne zachowanie. Rozważamy model efektów stałych. Zmienne zależne nie są bardzo silnie skorelowane, częścią badań jest znalezienie nieoczekiwanej zależności między tymi zmiennymi, więc słaba relacja jest w rzeczywistości czymś dobrym.

  1. Jakie są dokładne niebezpieczeństwa nieuwzględnienia zmiennej lag zmiennej zależnej?
  2. Jeśli konieczne jest uwzględnienie jednego z nich, czy istnieje test, aby dowiedzieć się, który (e).

Wdrożenie odbywa się w R.

Uwaga : przeczytałem ten post, ale to nie pomogło naszemu problemowi.

Mauricio G Tec
źródło

Odpowiedzi:

14

Dynamiczny model panelu może mieć sens, jeśli masz model odwetu oko za oko za zabójstwa. Na przykład, jeśli wskaźnik zabójstw był w dużej mierze spowodowany walkami gangów, morderstwa w czasie mogą równie dobrze być funkcją śmierci w t - 1 lub innych opóźnieniach. tt1

Mam zamiar odpowiedzieć na pytania poza kolejnością. Załóżmy, że MZD to

yit=δyit1+xitβ+μi+vit,

gdzie błędy i v są niezależne od siebie i między sobą. Jesteś zainteresowany przeprowadzeniem testu, czy δ = 0 (pytanie 2).μvδ=0

Jeśli używasz OLS, łatwo zauważyć, że i pierwsza część błędu są skorelowane, co sprawia, że ​​OLS jest tendencyjny i niespójny, nawet gdy nie ma szeregowej korelacji w v . Potrzebujemy czegoś bardziej skomplikowanego do wykonania testu.yit1v

Następną rzeczą, można spróbować to ustalone efekty Estymator z ciągu transformacji, gdzie można przekształcić dane przez odjęcie średniej każdego z obszarów , ˉ y i z każdej obserwacji. To wymazuje μ , ale estymator cierpi na odchylenie Nickella , które to odchylenie nie ustępuje wraz ze wzrostem liczby obserwacji N , więc jest niespójne w przypadku dużych N i małych paneli T. Jednak wraz ze wzrostem T uzyskuje się spójność δ i β . Judson i Owen (1999) przeprowadzają symulacje przy N = 20 ,yy¯iμNNTTδβ i T = 5 , 10 , 20 , 30 i okazało się, że nastawienie się rosnąć hemibursztynianu i zmniejsza się w T . Jednak nawet dla T = 30 odchylenie może wynosić nawet 20 % rzeczywistej wartości współczynnika. To złe wieści! Dlatego w zależności od wymiarów panelu możesz chcieć uniknąć estymatora FE. Jeśli δ > 0 , odchylenie jest ujemne, więc trwałość y jest niedoceniana. Jeśli regresory są skorelowane z opóźnieniem,również będzie stronniczy.N=20,100T=5,10,20,30δTT=3020%δ>0yβ

Innym prostym podejściem FE jest rozróżnienie danych w celu usunięcia ustalonego efektu i użycie do instrumentowania dla . Używasz również jako instrumentu dla siebie. Anderson i Hsiao (1981) to kanoniczne odniesienie. Oszacowanie to jest spójne (o ile wyjaśniające są z góry ustalone, a pierwotne warunki błędu nie są szeregowo skorelowane), ale nie w pełni wydajne, ponieważ nie wykorzystuje wszystkich dostępnych warunków momentu i nie wykorzystuje faktu, że błąd termin jest teraz zróżnicowany. To prawdopodobnie byłby mój pierwszy wybór. Jeśli uważasz, żeyit2Δyit1=yit1yit2xitxit1Xvpostępuj zgodnie z procesem AR (1), zamiast tego możesz użyć trzeciego i czwartego opóźnienia .y

Arellano i Bond (1991) opracowali bardziej efektywną uogólnioną metodę estymatora momentów (GMM), która została przedłużona od czasu rozluźnienia niektórych założeń. Rozdział 8 książki panelowej Baltagi jest dobrym przeglądem tej literatury, chociaż nie dotyczy selekcji opóźnień, o ile wiem. To najnowocześniejsze wskaźniki, ale bardziej wymagające technicznie.

Myślę, że plmpakiet w R ma wbudowane niektóre z nich. Dynamiczne modele paneli są w Stacie od wersji 10 , a SAS ma przynajmniej wersję GMM . Żaden z nich nie jest zliczaniem modeli danych, ale w zależności od danych może to nie być wielka sprawa. Oto jednak przykład dynamicznego modelu paneli Poisson w GMM w Stacie.

Odpowiedź na twoje pierwsze pytanie jest bardziej spekulacyjna. Jeśli pominiesz opóźnioną i pierwszą różnicę, uważam, że nadal można oszacować konsekwentnie, choć mniej precyzyjnie, ponieważ wariancja jest teraz większa. Jeśli jest to parametr, na którym Ci zależy, może to być dopuszczalne. To, co tracisz, to to, że nie możesz powiedzieć, czy w obszarze X było dużo zabójstw, ponieważ było ich dużo w zeszłym miesiącu, czy dlatego, że obszar X ma skłonność do przemocy. Rezygnujesz z możliwości rozróżnienia zależności między stanem a nieobserwowaną heterogenicznością (pytanie 1). yβ

Dimitriy V. Masterov
źródło
Więc używasz poziomów jako instrumentu, gdy masz zróżnicowaną serię, a różnic, gdy masz serię poziomów ?
Andy W
Porzucając indeks dolny , możesz użyć lub jako instrumentów dla różnicy . Arellano (1989) pokazuje, że pierwsze podejście ma punkt osobliwości i ogromne wariancje dla szerokiego zakresu wartości parametrów. Instrument poziomów nie ma żadnego, dlatego go poleciłemiΔyt2=yt2yt3yt2Δyt1=yt1yt2
Dimitriy V. Masterov