Wyodrębnianie słów kluczowych / fraz z tekstu przy użyciu bibliotek Deep Learning

20

Być może jest to zbyt ogólne, ale szukam referencji na temat korzystania z głębokiego uczenia się w zadaniu podsumowywania tekstu.

Wdrożyłem już podsumowanie tekstu przy użyciu standardowych podejść do częstotliwości słów i rankingu zdań, ale chciałbym zbadać możliwość zastosowania technik głębokiego uczenia się do tego zadania. Przeszedłem również kilka implementacji podanych na wildml.com przy użyciu Convolutional Neural Networks (CNN) do analizy nastrojów; Chciałbym wiedzieć, jak można użyć bibliotek takich jak TensorFlow lub Theano do podsumowania tekstu i ekstrakcji słów kluczowych. Minął tydzień, odkąd zacząłem eksperymentować z sieciami neuronowymi i jestem naprawdę podekscytowany, widząc, jak wydajność tych bibliotek wypada w porównaniu z moimi wcześniejszymi podejściami do tego problemu.

Szczególnie szukam ciekawych prac i projektów github związanych z podsumowaniem tekstu za pomocą tych ram. Czy ktoś może podać mi jakieś referencje?

shanky_thebearer
źródło

Odpowiedzi:

15

Blog Badania Google powinny być pomocne w kontekście TensorFlow .

W powyższym artykule znajduje się odniesienie do zestawu danych Annotated English Gigaword, który jest rutynowo wykorzystywany do podsumowania tekstu.

Artykuł z 2014 roku autorstwa Sutskevera i in. Zatytułowany „ Sekwencja do uczenia się za pomocą sekwencji z sieciami neuronowymi” może być znaczącym początkiem twojej podróży, ponieważ okazuje się, że w przypadku krótszych tekstów podsumowanie można nauczyć się od końca do końca za pomocą techniki głębokiego uczenia.

Na koniec, tutaj jest świetne repozytorium Github pokazujące podsumowanie tekstu podczas korzystania z TensorFlow.

Towarzystwo Naukowców Danych
źródło
16

Jest to otwarta dziedzina badań i na pewno zależy od tego, w jaki sposób sformułujesz problem. Jeśli mówisz o podsumowaniu wielu dokumentów, problem jest nieco inny niż w przypadku podsumowania jednego dokumentu.

Warto krótko przejrzeć literaturę.

Link udostępniony przez u / Society Of Data Scientists jest świetny i przydatny do zadania streszczenia podsumowującego w jednym dokumencie. Wykonano również prace nad wyciągami podsumowującymi, które identyfikują ważne zdania do wyodrębnienia.

Rush et. al ma fajny artykuł na temat abstrakcyjnego podsumowania z uwagą opartego na głębokim uczeniu się.

Podsumowując, możesz użyć LSTM do zbudowania klasyfikatora i użyć standardowych bibliotek TensorFlow / Torch, ale wydaje się, że nie ma żadnych aktualnych publikacji na temat korzystania z głębokiego uczenia się dla tego podejścia.

Oto kilka dodatkowych repozytoriów GitHub:

franciscojavierarceo
źródło
Dzięki @franciscojavierarceo przejrzę wyżej wymienione artykuły.
shanky_thebearer
4

Wygląda na to, że jest to bardziej ekstraktywne podsumowanie, jeśli szukasz słów kluczowych. Oto kilka dokumentów, które prawdopodobnie mają implementacje:

Podsumowanie neuronowe poprzez wyodrębnianie zdań i słów

Ekstrakcyjne podsumowanie przy użyciu głębokiego uczenia

Częściowo nadzorowane splotowe sieci neuronowe do kategoryzacji tekstu za pomocą osadzania regionu

Ponadto SpaCy (niepowiązany) ma dobrego bloga na temat ogólnej architektury zadań wyodrębniania tekstu.

Pavel Savine
źródło