Dlaczego wykorzystywanie danych przekrojowych do wnioskowania / przewidywania zmian podłużnych jest złą rzeczą?

11

Szukam papieru, który mam nadzieję, że istnieje, ale nie wiem, czy on istnieje. Może to być zestaw studiów przypadków i / lub argument z teorii prawdopodobieństwa, dlaczego wykorzystanie danych przekrojowych do wnioskowania / przewidywania zmian podłużnych może być złą rzeczą (tj. Niekoniecznie tak, ale może być).

Widziałem błąd popełniony na kilka dużych sposobów: wyciągnięto wnioski, że ponieważ bogatsi ludzie w Wielkiej Brytanii podróżują więcej, to wraz ze wzrostem społeczeństwa, społeczeństwo jako całość będzie podróżować więcej. Wnioskowanie to okazało się nieprawdziwe przez dłuższy okres - ponad dekadę. I podobny wzór w odniesieniu do krajowego zużycia energii elektrycznej: dane przekrojowe implikują duży wzrost dochodów, który nie pojawia się z czasem.

Dzieje się kilka rzeczy, w tym efekty kohortowe i ograniczenia po stronie podaży.

Byłoby bardzo użyteczne mieć jedno odniesienie, które zestawiałoby takie studia przypadków; i / lub zastosował teorię prawdopodobieństwa, aby zilustrować, dlaczego wykorzystanie danych przekrojowych do wnioskowania / przewidywania zmian podłużnych może być bardzo bardzo mylące.

Czy taki papier istnieje, a jeśli tak, co to jest?

references panel-data inference causality cross-section 410 nie ma
źródło

2

Wierzę, że ekonomiści pomyśleliby o tych zjawiskach jako rodzaju ogólnego efektu równowagi. Statystyki ludzie nazywają to pogwałceniem stabilnego założenia wartości leczenia jednostkowego. Myślę, że problem z panelem w przekroju jest trochę czerwonym śledziem.

Dimitriy V. Masterov

2

Częściowo odpowiadasz na własne pytanie, prosząc o zmiany „podłużne”. Dane o przekrojach są wywoływane, ponieważ są wykonywane w mgnieniu oka, dosłownie przekrój wycięty ze zmieniającego się w czasie społeczeństwa z jego wieloma powiązaniami. Dlatego najlepszym wnioskiem, jaki możesz mieć, jest założenie, że cokolwiek studiujesz, jest niezmienne w czasie lub przynajmniej zakończyło swoją ewolucję.

Z drugiej strony, dane, których szukasz, to dane podłużne lub dane panelowe dla ekonomistów.

Odniesienie Dobrze, że wyjaśnia głównie metod ale także uwypukla dwie wybitne przykłady z Economics jest tutaj . Przykład 2.1 ma stopy inwestycji firmy.

Część 3 jest nieco bardziej teoretyczna, ale zawiera wiele wglądu: model danych panelowych może być

\begin{array}{rcl} y_{i, t} = α y_{i, t - 1} + x_{i, t} γ + η_{i} + v_{i, t} . \end{array}

$\begin{eqnarray} y_{i,t} = \alpha y_{i,t-1} + x_{i,t} \gamma + \eta_{i} + v_{i,t}. \end{eqnarray}$

Teraz ten typ modelu może uchwycić zależność od stanu, która jest (obok nieobserwowanej niejednorodności) częstym wyjaśnieniem, dlaczego ludzie zachowują się inaczej. Dlatego jeśli obserwujesz tylko osoby podróżujące w danym momencie, Twoje będzie niezidentyfikowane, co oznacza, że nie wiesz, jak bardzo ich wczorajsza podróż wpłynęła na ich decyzję o ponownej podróży. $\alpha$

Teraz wyłącz na chwilę zależność czasową, ale pamiętaj, że to równanie mogło być prawdopodobnie prawdziwym modelem.

W modelu przekroju można teraz całkowicie usunąć indeks dolny ponieważ dane są dostępne tylko w jednym okresie. W związku z tym nie ma również możliwości uwzględnienia faktu, że każda osoba w zestawie danych może mieć bardzo różne , co spowoduje ogólne przesunięcie regresji w górę, przynajmniej gdy prawdziwy model jest dynamiczny. Jest to prawdopodobnie przyczyną przeszacowania, z powodu niezauważonego indywidualnego efektu (może być również powszechny), którego nie zmierzyłeś, ale znalazło to odzwierciedlenie w badaniu przekroju. $t$ $\eta_{i}'s$

Teraz ponownie wprowadź dane panelu. Możemy odjąć średnią w czasie każdej zmiennej, która, biorąc pod uwagę średnią jest stała w czasie, wyeliminowałby ten termin. Ta transformacja (inne są możliwe) pozwala skupić się tylko na dynamice (i faktycznie straciłbyś regresory niezmienne w czasie). $\eta_i$

To jest główna różnica między danymi przekroju i danych panelu. Fakt, że możesz wyeliminować efekt niezmienności czasowej, ponieważ masz tę zmienność czasu, pozwala usunąć pewne uprzedzenia, których oszacowanie przekroju nie pozwala na wykrycie. Dlatego zanim zastanowisz się nad zmianą zasad, na przykład wyższym podatkiem od podróży, ponieważ oczekujesz, że ludzie będą podróżować i chcesz więcej dochodów rządowych, bardziej przydatne jest widzenie tego zjawiska przez kilka lat, aby mieć pewność, że nie jesteś przechwytywanie nieobserwowanej heterogeniczności w próbce, którą interpretujesz jako skłonność do podróżowania.

Aby oszacować te modele, najlepiej przejść przez odniesienie. Ale uwaga: różne założenia dotyczące zachowania ludzi sprawią, że różne procedury szacowania będą dopuszczalne lub nie.

Mam nadzieję, że to pomoże!

Hirek
źródło

1

Brzmi bardzo podobnie do definicji procesu nieergodycznego (miary nad realizacjami nie są równe miarom w czasie). Niestety, bardzo niewiele interesujących zjawisk w świecie rzeczywistym jest ergodycznych. Myślę, że może to mieć miejsce w przypadku próbkowania na mniejszą skalę i wnioskowania, w których można by wprowadzić pewne uproszczenia. Mam na myśli przykłady małych skal czasowych lub przestrzennych, w których nie obserwuje się chaotycznego zachowania, więc predyktory można linearyzować. Ale po prostu się tu włóczę ... Obawiam się, że nie mogę ci pomóc z konkretną literaturą na ten temat. Przepraszamy: Niemniej jednak interesujące pytanie

ocramz
źródło

Dlaczego wykorzystywanie danych przekrojowych do wnioskowania / przewidywania zmian podłużnych jest złą rzeczą?

Odpowiedzi: