Dlaczego naukowcy z ekonomii używają regresji liniowej do zmiennych binarnych?

Ostatnio musiałem przeczytać kilka artykułów z ekonomii (dziedzina, której nie znam zbyt dobrze). Zauważyłem jedną rzecz, że nawet gdy zmienna odpowiedzi jest binarna, modele regresji liniowej dopasowane za pomocą OLS są wszechobecne. Moje pytanie brzmi zatem:

Dlaczego preferuje się regresję liniową, na przykład regresję logistyczną w dziedzinie ekonomii? Czy jest to po prostu powszechna praktyka, czy jest to procedura aktywnie zalecana (w artykułach, przez nauczycieli itp.)?

Pamiętaj, że nie pytam, dlaczego regresja liniowa z odpowiedzią binarną może być złym pomysłem lub jakie są alternatywne metody. Przeciwnie, pytam, dlaczego ludzie używają regresji liniowej w tym otoczeniu, ponieważ znam odpowiedzi na te dwa pytania.

regression logistic econometrics MånsT
źródło

Czy możesz podać jakieś przykłady?

Stephan Kolassa

To nie jest poprawne Ekonomia i ekonometria mają również obszerną literaturę na temat logit i probit oraz powiązanych modeli. Jestem też osobą z zewnątrz i nie mogę łatwo określić ilościowo względnego wykorzystania, ale literatura jest wystarczająco duża, aby obalić „wszechobecne” (co oznacza wszędzie!). Pojawia się pytanie, dlaczego w ogóle stosuje się tak zwany liniowy model prawdopodobieństwa i nie sądzę, aby wyjaśnienie mogło być głębokie lub trudne do znalezienia: jest łatwe do zrozumienia, a czasem działa odpowiednio.

Nick Cox,

Ekonomia ma jedynie bardzo swobodny związek z matematyką. Nie martwiłbym się tym zbytnio.

Sycorax mówi Przywróć Monikę

@Sycorax Mam podobne odczucia. A jeśli ktoś jest niechlujny z matematyki, nadal jest w stanie zbudować coś, co „działa”.

Haitao Du

@Sycorax To nie jest ani prawda, ani sprawiedliwość. Z pewnością stwierdzenie, że „nie przejmowałbyś się tym zbytnio” jest nieodpowiedzialne na pytanie. W zależności od sub-dziedzin ekonomia może mieć bardzo silny związek z matematyką i statystyką. Po prostu ekonomiści często zajmują się wnioskami przyczynowymi, podczas gdy zdarza się, że mają też do czynienia z danymi obserwacyjnymi (jak robi to wiele nauk społecznych). To sprawia, że niezwykle trudno jest ustanowić silny rygor matematyczny bez wprowadzenia intuicji ekonomicznej.

StAtS

Odpowiedzi:

Ten post na blogu ekonometrii Dave'a Gilesa głównie przedstawia wady Modelu Prawdopodobieństwa Liniowego (LPM).

Zawiera jednak krótką listę powodów, dla których badacze decydują się na jej użycie:

Jest to obliczeniowo prostsze.
Łatwiej jest interpretować „efekty marginalne”.
Pozwala to uniknąć ryzyka błędnej specyfikacji „funkcji łącza”.
Istnieją komplikacje związane z Logit lub Probit, jeśli masz endogenne atrapy regresorów.
Oszacowane efekty krańcowe z modeli LPM, Logit i Probit są zwykle bardzo podobne, szczególnie jeśli masz dużą próbkę.

Nie wiem, czy LPM jest powszechnie używany w porównaniu z logit lub probit, ale niektóre z powyższych powodów są dla mnie uzasadnione.

Świetnie 38
źródło

+1, dzięki za termin Model liniowego prawdopodobieństwa, nie znałem go wcześniej.

Haitao Du

Świetna sekcja na ten temat w „Głównie nieszkodliwych ekonometrii” autorstwa Angrista i Pischke, jeśli jesteś zainteresowany więcej.

shf8888,

Miałem podobne pytania, czytając artykuły z innych archiwów. I zadałem wiele pytań z tym związanych, takich jak to w społeczności Education Data Mining: Po co stosować kwadratową stratę prawdopodobieństw zamiast straty logistycznej?

Tutaj przedstawię wiele osobistych opinii.

Uważam, że funkcja utraty nie ma większego znaczenia w wielu praktycznych przypadkach. Niektórzy badacze mogą dowiedzieć się więcej o kwadratowej stracie i zbudować jej system, nadal działa i rozwiązuje rzeczywiste problemy. Badacze mogą nigdy nie wiedzieć o utracie logistyki lub utracie zawiasów i chcą tego spróbować. Co więcej, mogą nie być zainteresowani znalezieniem optymalnego modelu matematycznego, ale chcą rozwiązać rzeczywiste problemy, których nikt wcześniej nie próbował rozwiązać.

To kolejny przykład: jeśli sprawdzisz tę odpowiedź na moje pytanie, wszystkie są trochę podobne. Jakie są skutki wyboru różnych funkcji strat w klasyfikacji do przybliżonej straty 0-1

Więcej przemyśleń: badania nad uczeniem maszynowym mogą poświęcić dużo czasu na wybór modelu i optymalizację modelu. Wynika to z faktu, że badacz uczenia maszynowego może nie być w stanie zgromadzić większej ilości danych / uzyskać więcej miar. A zadaniem naukowca zajmującego się uczeniem maszynowym jest poprawa matematyki, a nie lepsze rozwiązywanie konkretnego problemu w świecie rzeczywistym.

Z drugiej strony, w prawdziwym świecie, jeśli dane są lepsze, bije wszystko. Zatem wybór sieci neuronowej lub losowego lasu może nie mieć większego znaczenia. Wszystkie te modele są podobne do osób, które chcą wykorzystywać uczenie maszynowe jako narzędzie do rozwiązywania rzeczywistych problemów. Osoba niezainteresowana opracowywaniem matematyki lub narzędzi może poświęcić więcej czasu na wykorzystanie wiedzy na temat konkretnych dziedzin w celu ulepszenia systemu.

Jak wspomniałem w komentarzu. A jeśli ktoś jest niechlujny z matematyki, nadal jest w stanie zbudować coś, co działa.

Haitao Du
źródło

(+1) To dużo „cudzysłowów” HXD, o czym mają się komunikować? Czy „działa” oznacza „myślą, że to działa, ale nie”, czy oznacza „trochę działa”?

Matthew Drury

@MatthewDrury dzięki za komentarz. Myślę, że miałem wiele osobistych uczuć i nie wiem, jak je zapisać. Myślę, że wiele z nich nie jest formalnych ani zbyt subiektywnych. dlatego miałem dużo cytatów.

Haitao Du

Myślę, że łatwiej jest po prostu oznaczyć je jako osobiste opinie. Oto, co robię na zajęciach ze studentami: „To pogranicza osobistej opinii, ale SVMs są do kitu” (nie jest to prawdziwy przykład, czy to jest ...)

Matthew Drury

@MatthewDrury dzięki za doradztwo w pisaniu, nie, nie ma cytatów w odpowiedzi!

Haitao Du