Korzystanie z narzędzi do eksploracji tekstu / przetwarzania języka naturalnego w ekonometrii

Nie jestem pewien, czy to pytanie jest w pełni odpowiednie tutaj, jeśli nie, proszę usunąć.

Jestem studentką ekonomii. W przypadku projektu badającego problemy z zakresu ubezpieczeń społecznych mam dostęp do dużej liczby administracyjnych spraw (> 200 tys.), Które dotyczą oceny kwalifikowalności. Raporty te można ewentualnie powiązać z indywidualnymi informacjami administracyjnymi. Chcę wyodrębnić informacje z tych raportów, które można wykorzystać w analizie ilościowej, a najlepiej więcej niż proste wyszukiwania słów kluczowych / wyrażeń regularnych za pomocą grep/ awkitp.

Jak przydatne jest do tego przetwarzanie języka naturalnego? Jakie są inne przydatne metody eksploracji tekstu? Z tego, co rozumiem, jest to duże pole i najprawdopodobniej niektóre raporty musiałyby zostać przekształcone, aby mogły zostać wykorzystane jako korpus. Czy warto poświęcić trochę czasu na zapoznanie się z literaturą i metodami? Czy może to być pomocne i czy wcześniej coś podobnego zostało zrobione? Czy warto, jeśli chodzi o nagrody, tj. Czy mogę wydobyć potencjalnie przydatne informacje za pomocą NLP do empirycznego studium ekonomii?

Możliwe są fundusze na zatrudnienie kogoś do przeczytania i przygotowania niektórych raportów. Jest to większy projekt i istnieje możliwość ubiegania się o większe fundusze. Mogę podać więcej szczegółów na ten temat, jeśli jest to absolutnie konieczne. Jedną z potencjalnych komplikacji jest to, że językiem jest niemiecki, a nie angielski.

Jeśli chodzi o kwalifikacje, jestem głównie przeszkolony w ekonometrii i mam trochę wiedzy na temat statystyki obliczeniowej na poziomie Hastie i in. książka. Znam Python, R., Stata i prawdopodobnie prawdopodobnie szybko poznam Matlaba. Biorąc pod uwagę biblioteki, zakładam, że Python jest do tego najlepszym narzędziem. Brak szkolenia w zakresie metod jakościowych, jeśli jest to istotne, ale znam kilka osób, z którymi mógłbym się skontaktować.

Cieszę się z wszelkich informacji na ten temat, tj. Czy jest to potencjalnie przydatne, jeśli tak, to gdzie zacząć czytanie i na jakich narzędziach się skupić.

machine-learning data-mining econometrics text-mining natural-language ilprincipe
źródło

LASSO, regresja metodą najmniejszego kąta i analiza logistyczna to kilka potencjalnie istotnych narzędzi. Możesz sprawdzić, jak podchodziłem do podobnego problemu dla mojego doktoratu. rozprawa tutaj i mój blog na temat narzędzi NLP w ekonomii tutaj . Jeśli masz to gdzieś, wspaniale byłoby usłyszeć o swoich postępach lub wyzwaniach, na które możesz natknąć się.

gradstudent

Odpowiedzi:

Myślę, że przydałoby Ci się określenie, jakie informacje chcesz wyodrębnić z danych. Proste wyszukiwanie słów kluczowych / wyrażeń regularnych może być dla Ciebie bardzo owocne. Pracuję w branży ubezpieczeniowej i dość często korzystamy z tego rodzaju eksploracji tekstu - jest to prawdopodobnie naiwne i zdecydowanie niedoskonałe, ale jest to stosunkowo dobry początek (lub przybliżenie) tego, co nas ogólnie interesuje.

Ale do mojej głównej kwestii, aby dowiedzieć się, czy wybrana metoda jest odpowiednia, zaleciłbym zdefiniowanie, co dokładnie chcesz wyodrębnić z danych; to najtrudniejsza część, moim zdaniem.

Interesujące może być znalezienie unikatowych słów we wszystkich ciągach i częstość występowania około 1000 pierwszych słów. Może to być drogie obliczeniowo (w zależności od pamięci RAM / procesora), ale może być interesujące. Gdybym eksplorował dane bez dużej wiedzy na ten temat, od tego bym zaczął (inni mogą oferować różne widoki).

Mam nadzieję, że to pomaga.

Francisco Arceo
źródło

dzięki, zdecydowanie myślałem o rozpoczęciu od czegoś takiego. Wiem, że moje pytanie jest niejasne, ale ogólnie interesuje mnie, jakie informacje mógłbym uzyskać innymi metodami. Przyznaję, że nie jestem pewien, czy można na to odpowiedzieć, nie znając konkretnego kontekstu.

ilprincipe

Myślę, że to zawsze stanowi wyzwanie dla każdej pracy / zawodu związanej z danymi. Prawdopodobnie poleciłbym przyjrzeć się niektórym z twoich danych, jeśli istnieją zmienne z opisami danych lub zdarzenia ubezpieczeniowego, przeczytaj kilkadziesiąt - poznaj dane. Pamiętaj, że jedyne, co próbujemy zrobić, to modelować proces leżący u podstaw danych i naprawdę dobrze się spisać, ponieważ musisz znać dane.

Francisco Arceo,