Nie jestem pewien, czy to pytanie jest w pełni odpowiednie tutaj, jeśli nie, proszę usunąć.
Jestem studentką ekonomii. W przypadku projektu badającego problemy z zakresu ubezpieczeń społecznych mam dostęp do dużej liczby administracyjnych spraw (> 200 tys.), Które dotyczą oceny kwalifikowalności. Raporty te można ewentualnie powiązać z indywidualnymi informacjami administracyjnymi. Chcę wyodrębnić informacje z tych raportów, które można wykorzystać w analizie ilościowej, a najlepiej więcej niż proste wyszukiwania słów kluczowych / wyrażeń regularnych za pomocą grep
/ awk
itp.
Jak przydatne jest do tego przetwarzanie języka naturalnego? Jakie są inne przydatne metody eksploracji tekstu? Z tego, co rozumiem, jest to duże pole i najprawdopodobniej niektóre raporty musiałyby zostać przekształcone, aby mogły zostać wykorzystane jako korpus. Czy warto poświęcić trochę czasu na zapoznanie się z literaturą i metodami? Czy może to być pomocne i czy wcześniej coś podobnego zostało zrobione? Czy warto, jeśli chodzi o nagrody, tj. Czy mogę wydobyć potencjalnie przydatne informacje za pomocą NLP do empirycznego studium ekonomii?
Możliwe są fundusze na zatrudnienie kogoś do przeczytania i przygotowania niektórych raportów. Jest to większy projekt i istnieje możliwość ubiegania się o większe fundusze. Mogę podać więcej szczegółów na ten temat, jeśli jest to absolutnie konieczne. Jedną z potencjalnych komplikacji jest to, że językiem jest niemiecki, a nie angielski.
Jeśli chodzi o kwalifikacje, jestem głównie przeszkolony w ekonometrii i mam trochę wiedzy na temat statystyki obliczeniowej na poziomie Hastie i in. książka. Znam Python, R., Stata i prawdopodobnie prawdopodobnie szybko poznam Matlaba. Biorąc pod uwagę biblioteki, zakładam, że Python jest do tego najlepszym narzędziem. Brak szkolenia w zakresie metod jakościowych, jeśli jest to istotne, ale znam kilka osób, z którymi mógłbym się skontaktować.
Cieszę się z wszelkich informacji na ten temat, tj. Czy jest to potencjalnie przydatne, jeśli tak, to gdzie zacząć czytanie i na jakich narzędziach się skupić.
Odpowiedzi:
Myślę, że przydałoby Ci się określenie, jakie informacje chcesz wyodrębnić z danych. Proste wyszukiwanie słów kluczowych / wyrażeń regularnych może być dla Ciebie bardzo owocne. Pracuję w branży ubezpieczeniowej i dość często korzystamy z tego rodzaju eksploracji tekstu - jest to prawdopodobnie naiwne i zdecydowanie niedoskonałe, ale jest to stosunkowo dobry początek (lub przybliżenie) tego, co nas ogólnie interesuje.
Ale do mojej głównej kwestii, aby dowiedzieć się, czy wybrana metoda jest odpowiednia, zaleciłbym zdefiniowanie, co dokładnie chcesz wyodrębnić z danych; to najtrudniejsza część, moim zdaniem.
Interesujące może być znalezienie unikatowych słów we wszystkich ciągach i częstość występowania około 1000 pierwszych słów. Może to być drogie obliczeniowo (w zależności od pamięci RAM / procesora), ale może być interesujące. Gdybym eksplorował dane bez dużej wiedzy na ten temat, od tego bym zaczął (inni mogą oferować różne widoki).
Mam nadzieję, że to pomaga.
źródło