Biorąc pod uwagę zdanie:
Complimentary gym access for two for the length of stay ($12 value per person per day)
Jakie ogólne podejście mogę zastosować, aby zidentyfikować słowo „gym” lub „gym access”?
machine-learning
nlp
text-mining
data-cleaning
William Falcon
źródło
źródło
Odpowiedzi:
Płytkie N aturalny L anguage P technika rzetwarzanie mogą być stosowane do wyodrębniania koncepcji z zdaniu.
-------------------------------------------
Płytkie kroki techniki NLP:
1) Konwertuj zdanie na małe litery
2) Usuń stopery (są to typowe słowa występujące w języku. Słowa takie jak, bardzo, i, z, itd. Są typowymi słowami stop)
3) Wyodrębnij n-gram, tj. Ciągłą sekwencję n elementów z danej sekwencji tekstu (po prostu zwiększając n, model może służyć do przechowywania większej ilości kontekstu)
4) Przypisz etykietę składniową (rzeczownik, czasownik itp.)
5) Ekstrakcja wiedzy z tekstu za pomocą analizy semantycznej / syntaktycznej, tj. Spróbuj zachować słowa, które mają większą wagę w zdaniu takim jak rzeczownik / czasownik
-------------------------------------------
Pozwala zbadać wyniki zastosowania powyższych kroków w danym zdaniu
Complimentary gym access for two for the length of stay ($12 value per person per day)
.Wyniki 1-gramowe: siłownia, dostęp, długość, pobyt, wartość, osoba, dzień
Pozwala zwiększyć n, aby przechowywać więcej kontekstu i usuwać stopery.
2-gramowe wyniki: bezpłatna siłownia, dostęp do siłowni, długość pobytu, wartość pobytu
3-gramowe wyniki: bezpłatny dostęp do siłowni, wartość pobytu, osoba na dzień
Rzeczy do zapamiętania:
Przybory:
Możesz rozważyć użycie OpenNLP / StanfordNLP do części tagowania mowy. Większość języka programowania ma bibliotekę pomocniczą dla OpenNLP / StanfordNLP. Możesz wybrać język w zależności od wygody. Poniżej znajduje się przykładowy kod R, którego użyłem do tagowania PoS.
Przykładowy kod R:
Dodatkowe odczyty na temat Shallow & Deep NLP:
Płytkie i głębokie przetwarzanie NLP do nauki ontologii: szybki przegląd Kliknij tutaj
Integracja płytkiej i głębokiej NLP w celu uzyskania informacji Kliknij tutaj
źródło
Musisz przeanalizować strukturę zdania i wyodrębnić odpowiednie składniowe kategorie zainteresowań (w tym przypadku myślę, że byłaby to fraza rzeczownikowa , która jest kategorią frazową ). Aby uzyskać szczegółowe informacje, zobacz odpowiedni artykuł w Wikipedii i rozdział „Analiza struktury zdań” książki NLTK.
Jeśli chodzi o dostępne narzędzia programowe do wdrażania wyżej wspomnianego podejścia i nie tylko, sugerowałbym rozważenie albo NLTK (jeśli wolisz Python), albo StanfordNLP (jeśli wolisz Javę). Aby zapoznać się z wieloma innymi platformami NLP, bibliotekami i obsługą programowania różnych języków, zobacz odpowiednie sekcje (NLP) na tej doskonałej, wyselekcjonowanej liście .
źródło
Jeśli jesteś użytkownikiem R., na stronie http://www.rdatamining.com znajdziesz wiele dobrych praktycznych informacji . Spójrz na ich przykłady eksploracji tekstu.
Zobacz także pakiet TM.
Jest to również dobra strona agregująca - http://www.tapor.ca/
źródło