Czy są jakieś artykuły lub dyskusje na temat wyodrębnienia części tekstu, która zawiera najwięcej informacji o bieżącym dokumencie.
Na przykład mam duży zbiór dokumentów z tej samej domeny. Istnieją fragmenty tekstu zawierające kluczowe informacje, o których mówi pojedynczy dokument. Chcę wyodrębnić niektóre z tych części i wykorzystać je jako podsumowanie tekstu. Czy jest jakaś przydatna dokumentacja na temat tego, jak osiągnąć coś takiego?
Byłoby naprawdę pomocne, gdyby ktoś mógł skierować mnie we właściwym kierunku, czego powinienem szukać lub czytać, aby uzyskać wgląd w pracę, która mogła być już wykonana w tej dziedzinie przetwarzania języka naturalnego.
źródło
Wiele technik wyodrębniania słów kluczowych zależy od takich czynników, jak:
Ale ogólnie, jeśli masz długi tekst i chcesz automatycznie wyodrębnić z niego słowa kluczowe, polecam przejrzenie następujących artykułów:
TextRank
RAKE [Szybka automatyczna ekstrakcja słów kluczowych]
Topica
Aby również wyodrębnić niestandardowe (specjalne) słowa kluczowe, które nie podlegają powyższym technikom, spójrz na poniższy post:
Wyodrębnij niestandardowe słowa kluczowe za pomocą tagera NLTK POS w pythonie
źródło