Jakie są główne filozoficzne, metodologiczne i terminologiczne różnice między ekonometrią a innymi dziedzinami statystycznymi?

70

Ekonometria w znacznym stopniu pokrywa się z tradycyjnymi statystykami, ale często używa własnego żargonu na różne tematy („identyfikacja”, „egzogeniczny” itp.). Kiedyś usłyszałem, jak profesor statystyki stosowanej w innym polu skomentował, że często terminologia jest inna, ale pojęcia są takie same. Ale ma też własne metody i filozoficzne rozróżnienia (przychodzi na myśl słynny esej Heckmana).

Jakie różnice w terminologii występują między ekonometrią a statystyką głównego nurtu i gdzie obszary różnią się między sobą, by różniły się nie tylko terminologią?

Ari B. Friedman
źródło

Odpowiedzi:

96

Istnieją pewne różnice terminologiczne, w których to samo nazywa się różnymi nazwami w różnych dyscyplinach:

  1. Dane podłużne w biostatystyce to powtarzane obserwacje tych samych osobników = dane panelowe w ekonometrii.
  2. Model binarnej zmiennej zależnej, w którym prawdopodobieństwo 1 jest modelowane jako nazywa się modelem logitowym w ekonometrii, a modelem logistycznym w biostatystyce. Biostatystycy mają tendencję do pracy z regresją logistyczną pod względem ilorazów szans, ponieważ ich są często binarne, więc iloraz szans reprezentuje względne częstotliwości wyniku zainteresowania w dwóch grupach w populacji. Jest to tak powszechna interpretacja, że ​​często zobaczysz zmienną ciągłą przekształconą w dwie kategorie (niskie i wysokie ciśnienie krwi), aby ułatwić tę interpretację.x1/(1+exp[xβ])x
  3. „Równania szacunkowe” statystyków to „warunki chwilowe” ekonometryczne. Statystyków -estimates są Ekonometrycy ekstremum estymatory.M

Istnieją różnice terminologiczne, w których ten sam termin oznacza różne rzeczy w różnych dyscyplinach:

  1. Naprawiono efekty dla w równaniu regresji dla statystyków ANOVA i dla estymatora „wewnątrz” dla ekonometrów.xβ
  2. Solidne wnioskowanie oznacza dla ekonomistów skorygowane błędy heteroskedastyczne (z rozszerzeniami standardowych błędów klastra i / lub standardowe błędy skorygowane autokorelacją) oraz metody odporne na dalekie odbiegania statystyki.
  3. Wydaje się, że ekonomiści mają absurdalny pomysł, że próbki warstwowe to te, w których prawdopodobieństwa wyboru różnią się między obserwacjami. Należy je nazwać nierównymi próbkami prawdopodobieństwa. Próbki uwarstwione to te, w których populacja jest podzielona na wcześniej określone grupy zgodnie z cechami znanymi przed rozpoczęciem pobierania próbek.
  4. „Eksploracja danych” ekonometrycznych (przynajmniej w literaturze z lat 80.) oznaczała wiele testów i związanych z nimi pułapek, które zostały cudownie wyjaśnione w książce Harrella . Procedury eksploracji danych przez informatyków (i statystów) są nieparametrycznymi metodami znajdowania wzorców w danych, znanymi również jako uczenie statystyczne .

Uważam, że jest to wyjątkowy wkład ekonometrii

  1. Sposoby radzenia sobie z endogenicznością i słabo określonymi modelami regresji, uznając, jak mpiktas wyjaśnił w innej odpowiedzi , że (i) zmienne objaśniające mogą same być losowe (a zatem skorelowane z błędami regresji powodującymi błąd w szacunkach parametrów), (ii) modele mogą cierpieć z powodu pominiętych zmiennych (które następnie stają się częścią składnika błędu), (iii) może występować nieobserwowana heterogeniczność reakcji czynników ekonomicznych na bodźce, co komplikuje standardowe modele regresji. Angrist & Pischke to wspaniały przegląd tych zagadnień, a statystycy dowiedzą się dużo o tym, jak z nich przeprowadzić analizę regresji. Statystycy powinni przynajmniej uczyć się i rozumieć regresję zmiennych instrumentalnych.
  2. Mówiąc bardziej ogólnie, ekonomiści chcą poczynić jak najmniej założeń dotyczących swoich modeli, aby upewnić się, że ich ustalenia nie zależą od czegoś tak absurdalnego, jak normalność wielowymiarowa. Właśnie dlatego GMM jest niezwykle popularny wśród ekonomistów i nigdy nie nadrobił zaległości w statystykach (mimo że Ferguson pod koniec lat 60. określił go jako minimum ). Właśnie dlatego przyjęcie prawdopodobieństwa empirycznego wzrosło wykładniczo w ekonometrii, z niewielkim spadkiem w statystykach. Właśnie dlatego ekonomiści przeprowadzają regresję z „solidnymi” standardowymi błędami, a statystycy z domyślnymi standardowymi błędami OLS .s 2 ( X X ) - 1χ2s2(XX)1
  3. W dziedzinie czasu było wiele pracy z regularnie rozmieszczonymi procesami - w ten sposób gromadzone są dane makroekonomiczne. Unikalny wkład obejmuje zintegrowane i zintegrowane procesy oraz autoregresyjne metody warunkowej heteroskedastyczności ((G) ARCH). Będąc ogólnie osobą mikro, jestem mniej zaznajomiony z nimi.

Ogólnie rzecz biorąc, ekonomiści szukają silnej interpretacji współczynników w swoich modelach. Statystycy przyjmowaliby model logistyczny jako sposób na uzyskanie prawdopodobieństwa wyniku pozytywnego, często jako proste urządzenie predykcyjne, i mogliby również zauważyć interpretację GLM z ładnymi właściwościami wykładniczymi, które posiada, a także powiązania z analizą dyskryminacyjną. Ekonomiści zastanowiliby się nad użyteczną interpretacją modelu logit i obawiali się, że w tym modelu zidentyfikowano tylko i że heteroskedastyczność może go zrzucić. (Statystycy będą się zastanawiać, coσβ/σσ są oczywiście ekonomiści.) Oczywiście użyteczność, która jest liniowa w swoich danych wejściowych, jest bardzo zabawna z punktu widzenia Microeconomics 101, chociaż pewne uogólnienia funkcji częściowo wklęsłych są prawdopodobnie wykonywane w Mas-Collel.

Ekonomiści zwykle tęsknią, ale IMHO na tym skorzystają, to aspekty analizy wielowymiarowej (w tym utajone modele zmiennych jako sposób radzenia sobie z błędami pomiaru i wieloma proxy… statystycy też nie są świadomi tych modeli) , diagnostyka regresji (wszystkie te odległości Cooka,Cp, DFBETA itp.), Analiza brakujących danych (częściowa identyfikacja Manskiego jest z pewnością fantazyjna, ale bardziej rozpowszechniony jest podział głównego nurtu MCAR / MAR / NMAR i wielokrotna imputacja) oraz statystyki ankiet. Ekonometria czerpała wiele innych informacji ze statystyk głównego nurtu i albo przyjęła je jako standardową metodologię, albo przyjęła jako krótkoterminowe: modele ARMA z lat 60. XX wieku są prawdopodobnie lepiej znane w ekonometrii niż w statystyce, ponieważ niektóre programy magisterskie w statystykach może obecnie nie oferować kursu szeregów czasowych; estymatory skurczu / regresja kalenicowa z lat siedemdziesiątych przyszły i zniknęły; bootstrap z lat 80. to reakcja na kolana w każdej skomplikowanej sytuacji, chociaż ekonomiści muszą być bardziej świadomi ograniczeń bootstrapu; prawdopodobieństwo empiryczne lat dziewięćdziesiątych przyniosło więcej rozwoju metodologii od teoretycznych ekonometrów niż od teoretycznych statystyk; obliczeniowe metody bayesowskie z 2000 roku są rozrywką w ekonometrii, ale mam wrażenie, że są one zbyt parametryczne, zbyt mocno oparte na modelach, aby były zgodne z paradygmatem niezawodności, o którym wspominałem wcześniej. To, czy ekonomiści znajdą jakiekolwiek zastosowanie nauki statystycznej / bioinformatyki lub rzeczy czasoprzestrzennych, które jest niezwykle popularne we współczesnych statystykach, jest otwarte.

StasK
źródło
14
+1 To wspaniały przykład tego, jak wspaniałe odpowiedzi mogą się pojawić, gdy pytanie zostanie otwarte dla zróżnicowanej społeczności.
whuber
1
@ whuber, dzięki za komentarz. Szczerze mówiąc, podziały dyscyplinujące doprowadzają mnie do szału.
StasK
@StasK Doskonała odpowiedź. Jeden szybki punkt. „Ogólnie rzecz biorąc, ekonomiści szukają silnej interpretacji współczynników w swoich modelach”. Ściśle mówiąc, jest to nieco błędne, ponieważ w analizie VAR (która jest bardzo popularna, dlatego nie należy wypowiadać się w kategoriach „całościowych”), centralnym punktem jest interpretacja funkcji odpowiedzi impulsowej zamiast interpretacji współczynników modelu (często , są zbyt skomplikowane, aby próbować interpretować).
Graeme Walsh
@GraemeWalsh - Widzę, jak powiedziałem, nie pracuję w szeregach makro / czasowych. Dzięki za zwrócenie na to uwagi.
StasK,
20

Najlepiej wyjaśnić to regresją liniową, ponieważ jest to główne narzędzie ekonometrii. W regresji liniowej mamy model:

Y=Xβ+ε

Główną różnicą między innymi polami statystycznymi a ekonometrią jest to, że jest traktowany jako ustalony w innych polach i jest traktowany jako zmienna losowa w ekonometrii. Dodatkowa ostrożność, którą musisz zastosować, aby dostosować się do tej różnicy, powoduje różne żargon i różne metody. Zasadniczo można powiedzieć, że wszystkie metody stosowane w ekonometrii są tymi samymi metodami, co w innych polach statystycznych, z uwzględnieniem losowości zmiennych objaśniających. Godnym uwagi wyjątkiem jest GMM , który jest wyjątkowo ekonometrycznym narzędziem.X

Innym sposobem spojrzenia na różnicę jest to, że dane w innych polach statystycznych można uznać za próbkę. W ekonometrii dane w wielu przypadkach są próbką z procesu stochastycznego, z czego iid jest jedynie przypadkiem szczególnym. Stąd znowu inny żargon.

Znajomość powyższego zazwyczaj wystarcza, aby łatwo przejść z innych pól statystycznych do ekonometrii. Ponieważ zazwyczaj podaje się model, nietrudno jest ustalić, co jest. Moim zdaniem różnica w żargonie między uczeniem maszynowym a statystyką klasyczną jest znacznie większa niż między ekonometrią a statystyką klasyczną.

Zauważ jednak, że istnieją terminy, które mają skomplikowane znaczenie w statystykach bez ekonometrii. Pierwszym przykładem są efekty stałe i losowe. Artykuły w Wikipedii o tych terminach to bałagan, łączący ekonometrię ze statystykami.

mpiktas
źródło
5
„Najlepszym przykładem są ustalone i losowe efekty. Artykuły Wikipedii na temat tych terminów to bałagan, łączący ekonometrię ze statystykami”. Tak prawdziwe.
Michael Bishop
8

Jedną subtelną różnicą jest to, że ekonomiści czasami przypisują znaczenie terminom błędu w modelach. Jest to szczególnie prawdziwe wśród ekonomistów „strukturalnych”, którzy uważają, że można oszacować parametry strukturalne reprezentujące zainteresowanie lub indywidualną heterogeniczność.

Klasowym przykładem tego jest probit. Podczas gdy statystycy są generalnie agnostyczni w kwestii tego, co powoduje termin błędu, ekonomiści często postrzegają terminy błędu w regresjach jako reprezentujące heterogeniczność preferencji. W przypadku probit możesz modelować decyzję kobiety o dołączeniu do siły roboczej. Zostanie to określone przez różne zmienne, ale warunek błędu będzie reprezentował nieobserwowany stopień, w jakim indywidualne preferencje dotyczące pracy mogą się różnić.

d_a_c321
źródło
4
Chociaż statystycy mogą być agnostyczni w kwestii tego, co powoduje termin błędu, nie oznacza to, że go to nie obchodzi. Opisujesz heterogeniczność terminu błędu, co oznacza, że ​​zwykłe założenia dotyczące warunków błędu nie są spełnione. Żaden statystyk nie zignoruje tego.
mpiktas
2
Co ciekawe, w tym przypadku nie ma problemu z formą terminu błędu. Zarówno statystycy, jak i ekonomiści staną w obronie i będą się martwić heteroskedastycznością lub innymi błędami. Jednak nawet jeśli termin błędu wynosi N (0,1) jak w przypadku probit, ekonomiści mają skłonność do interpretacji ekonomicznej.
d_a_c321
5
Dotyczy to ogólnie modelowania. Interpretacja modelu na swój własny sposób nie ogranicza się do ekonomistów, o ile wiem.
mpiktas
Nie zgadzam się. Ekonomiści wyraźnie mają monopol na sprytną interpretację modeli <tylko żartują!>. Dobra racja jednak.
d_a_c321 16.10.11
8

Oczywiście wszelkie ogólne stwierdzenia muszą być zbyt szerokie. Ale z mojego doświadczenia wynika, że ​​ekonometria jest zaniepokojona związkami przyczynowymi, a statystyki bardziej zainteresowały prognozowaniem.

Po stronie ekonomicznej nie można uniknąć literatury na temat „rewolucji wiarygodności” ( głównie nieszkodliwych ekonometrii itp.). Ekonomiści koncentrują się na wpływie niektórych metod leczenia na niektóre wyniki, zwracając uwagę na ocenę polityki i zalecenia.

Po stronie statystyk widać wzrost eksploracji danych / uczenia maszynowego, a aplikacje do analityki internetowej i genetyki są godnymi uwagi przykładami. Tutaj naukowcy są bardziej zainteresowani przewidywaniem zachowań lub związków, niż ich dokładnym wyjaśnieniem; szukają raczej wzorów niż przyczyn.

Chciałbym również wspomnieć, że statystycy tradycyjnie byli bardziej zainteresowani projektami eksperymentalnymi, wracając do eksperymentów rolniczych w latach 30. XX wieku.

Charlie
źródło
7

Zauważyłem, że w porównaniu z tym, co nazwałbym głównym nurtem ekonometrycznych nauk statystycznych, niechętnie używają wykresów, zarówno schematycznych, jak i opartych na danych. Ważnym tego przykładem jest zasięg regresji, który z natury jest jeszcze bardziej centralny w ekonometrii niż gdzie indziej. Współczesne wprowadzenie do regresji przez statystów podkreśla wartość wykresu danych i wykresu wyników regresji, w tym wykresów diagnostycznych, podczas gdy leczenie w tekstach ekonometrycznych jest wyraźnie bardziej formalne. Wiodące teksty w ekonometrii nie zawierają wielu wykresów i nie promują mocno ich wartości.

Trudno to przeanalizować bez ryzyka, że ​​wydaje się, że nie jest to przypadkowe lub gorsze, ale zgaduję, że przydałaby się kombinacja następujących elementów.

  1. Pragnienie rygoru. Ekonometrycy są zwykle podejrzliwi lub wrogo nastawieni do uczenia się na podstawie danych i zdecydowanie wolą, aby decyzje opierały się na formalnych testach (ilekroć nie wynikają z twierdzenia). Jest to związane z preferencją, aby modele opierały się na „teorii” (chociaż może to oznaczać, że predyktor wspomniany wcześniej w artykule przez pewnego ekonomistę nie mówiącego o danych).

  2. Praktyki publikacyjne. Artykuły do ​​czasopism ekonomicznych lub ekonometrycznych są ciężkie z wysoce stylizowanymi tabelami współczynników, błędów standardowych, statystyki t i wartości P. Wydaje się, że w wielu przypadkach nie trzeba nawet dodawać wykresów, a jeśli zostanie to zaproponowane, może zostać zasugerowane przez recenzentów do wycięcia. Praktyki te zostały wprowadzone w życie przez pokolenie lub więcej w takim zakresie, w jakim stały się automatyczne, ze sztywnymi konwencjami dotyczącymi poziomów istotności itp.

  3. Grafika dla złożonych modeli. Milczące wykresy są ignorowane, ilekroć nie wydaje się, że istnieje wykres pasujący do złożonego modelu z wieloma predyktorami itp., Itp. (Co często jest trudne do ustalenia).

Oczywiście sugeruję różnicę środków, a ja dostrzegam dużą zmienność w obu przypadkach.

Nick Cox
źródło
4

W przeciwieństwie do większości innych dyscyplin ilościowych, ekonomia zajmuje się rzeczami w MARGIN. To znaczy krańcowa użyteczność, krańcowa stopa podstawienia itp. W kategoriach rachunku ekonomicznego zajmuje się „pierwszym” (i pochodnymi wyższego rzędu).

Wiele dyscyplin statystycznych zajmuje się wielkościami niepochodnymi, takimi jak średnie i wariancje. Oczywiście możesz wejść w obszar krańcowych i warunkowych rozkładów prawdopodobieństwa, ale niektóre z tych aplikacji również przechodzą w ekonomię (np. „Wartość oczekiwana”).

Tom Au
źródło
2

To nie jest ekonometria, to kontekst. Jeśli twoja funkcja prawdopodobieństwa nie ma unikalnego optimum, będzie dotyczyła zarówno statystyki, jak i ekonometrii. Teraz, jeśli zaproponujesz założenie, które wywodzi się z teorii ekonomii i ogranicza parametryzację w celu identyfikacji parametru, można by to nazwać ekonometrią, ale założenie mogło pochodzić z dowolnej dziedziny merytorycznej.

Egzogeniczność jest kwestią filozoficzną. Zobacz np. Http://andrewgelman.com/2009/07/disputes_about/ porównanie różnych poglądów, w których ekonomiści zazwyczaj rozumieją to tak, jak Rubin.

Krótko mówiąc, albo zastosuj żargon, którego używa twój nauczyciel, albo zachowaj otwarty umysł i czytaj dalej.

Alex
źródło
2

Ekonometrycy są prawie wyłącznie zainteresowani wnioskami przyczynowymi, podczas gdy statystycy również używają modeli do przewidywania wyników. W rezultacie ekonometrycy bardziej skupiają się na egzogeniczności (jak wspomnieli inni). Ekonometrycy zredukowani i ekonometrycy strukturalni przyjmują tę interpretację przyczynową na różne sposoby.

Ekonometrycy o zredukowanej formie często zajmują się egzogenicznością przy użyciu technik zmiennych instrumentalnych (podczas gdy statystycy używają IV znacznie rzadziej).

Ekonometrycy strukturalni uzyskują przyczynowe interpretacje parametrów, opierając się na teorii, która jest rzadka w pracy statystów.

DanB
źródło
1
Niestatystycy stosują IV do wielu celów, a ekonometria o zredukowanej formie wykorzystuje wiele technik wnioskowania przyczynowego innych niż tylko IV (diff-in-diff, nieciągłość regresji itp.). Zobacz ten artykuł Imbens, aby pogodzić ekonometrię IV z najnowszymi nieekonometrycznymi zmianami statystycznymi IV.
Ari B. Friedman
2

Jako statystyk myślę o tym bardziej ogólnie. Posiadamy dane biometryczne i ekonometryczne. Są to oba obszary, w których statystyki służą do rozwiązywania problemów. Z biometrią mamy do czynienia z problemami biologicznymi / medycznymi, podczas gdy ekonometria z ekonomią. W przeciwnym razie byłyby takie same, z tym wyjątkiem, że różne dyscypliny podkreślają różne techniki statystyczne. W biometrii bardzo często stosuje się analizę przeżycia i analizę tabeli awaryjnej. W ekonometrii bardzo często stosuje się szeregi czasowe. Analiza regresji jest wspólna dla obu. Po zapoznaniu się z odpowiedziami na temat różnic terminologicznych między ekonomatycznymi i biostatystycznymi wydaje się, że faktyczne pytanie dotyczyło głównie terminologii i tak naprawdę zająłem się tylko dwoma pozostałymi. Odpowiedzi są tak dobre, że nie mogę nic dodać. Szczególnie podobały mi się odpowiedzi StasK. Ale jako biostatysta uważam, że używamy zamiennie modelu logit i modelu logistycznego. Log log (p / [1-p]) nazywamy transformacją logit.

Michael Chernick
źródło
2
(+1) Możesz dodać psychometrię do listy aplikacji zastosowanych statystyk specyficznych dla domeny do problemów specyficznych dla domeny.
Andy W