Ostatnio musiałem przeczytać kilka artykułów z ekonomii (dziedzina, której nie znam zbyt dobrze). Zauważyłem jedną rzecz, że nawet gdy zmienna odpowiedzi jest binarna, modele regresji liniowej dopasowane za pomocą OLS są wszechobecne. Moje pytanie brzmi zatem:
Dlaczego preferuje się regresję liniową, na przykład regresję logistyczną w dziedzinie ekonomii? Czy jest to po prostu powszechna praktyka, czy jest to procedura aktywnie zalecana (w artykułach, przez nauczycieli itp.)?
Pamiętaj, że nie pytam, dlaczego regresja liniowa z odpowiedzią binarną może być złym pomysłem lub jakie są alternatywne metody. Przeciwnie, pytam, dlaczego ludzie używają regresji liniowej w tym otoczeniu, ponieważ znam odpowiedzi na te dwa pytania.
regression
logistic
econometrics
MånsT
źródło
źródło
Odpowiedzi:
Ten post na blogu ekonometrii Dave'a Gilesa głównie przedstawia wady Modelu Prawdopodobieństwa Liniowego (LPM).
Zawiera jednak krótką listę powodów, dla których badacze decydują się na jej użycie:
Nie wiem, czy LPM jest powszechnie używany w porównaniu z logit lub probit, ale niektóre z powyższych powodów są dla mnie uzasadnione.
źródło
Miałem podobne pytania, czytając artykuły z innych archiwów. I zadałem wiele pytań z tym związanych, takich jak to w społeczności Education Data Mining: Po co stosować kwadratową stratę prawdopodobieństw zamiast straty logistycznej?
Tutaj przedstawię wiele osobistych opinii.
Uważam, że funkcja utraty nie ma większego znaczenia w wielu praktycznych przypadkach. Niektórzy badacze mogą dowiedzieć się więcej o kwadratowej stracie i zbudować jej system, nadal działa i rozwiązuje rzeczywiste problemy. Badacze mogą nigdy nie wiedzieć o utracie logistyki lub utracie zawiasów i chcą tego spróbować. Co więcej, mogą nie być zainteresowani znalezieniem optymalnego modelu matematycznego, ale chcą rozwiązać rzeczywiste problemy, których nikt wcześniej nie próbował rozwiązać.
To kolejny przykład: jeśli sprawdzisz tę odpowiedź na moje pytanie, wszystkie są trochę podobne. Jakie są skutki wyboru różnych funkcji strat w klasyfikacji do przybliżonej straty 0-1
Więcej przemyśleń: badania nad uczeniem maszynowym mogą poświęcić dużo czasu na wybór modelu i optymalizację modelu. Wynika to z faktu, że badacz uczenia maszynowego może nie być w stanie zgromadzić większej ilości danych / uzyskać więcej miar. A zadaniem naukowca zajmującego się uczeniem maszynowym jest poprawa matematyki, a nie lepsze rozwiązywanie konkretnego problemu w świecie rzeczywistym.
Z drugiej strony, w prawdziwym świecie, jeśli dane są lepsze, bije wszystko. Zatem wybór sieci neuronowej lub losowego lasu może nie mieć większego znaczenia. Wszystkie te modele są podobne do osób, które chcą wykorzystywać uczenie maszynowe jako narzędzie do rozwiązywania rzeczywistych problemów. Osoba niezainteresowana opracowywaniem matematyki lub narzędzi może poświęcić więcej czasu na wykorzystanie wiedzy na temat konkretnych dziedzin w celu ulepszenia systemu.
Jak wspomniałem w komentarzu. A jeśli ktoś jest niechlujny z matematyki, nadal jest w stanie zbudować coś, co działa.
źródło