Chcę zaprojektować system, który po akapicie tekstu będzie mógł go skategoryzować i zidentyfikować kontekst:
- Jest szkolony z akapitów tekstowych generowanych przez użytkowników (takich jak komentarze / pytania / odpowiedzi)
- Każdy element w zestawie treningowym zostanie oznaczony. Więc na przykład („kategoria 1”, „tekst akapit”)
- Będą setki kategorii
Jakie byłoby najlepsze podejście do budowy takiego systemu? Patrzyłem na kilka różnych opcji, a poniżej znajduje się lista możliwych rozwiązań. Czy Word2Vec / NN jest obecnie najlepszym rozwiązaniem?
- Sieć rekurencyjnej sieci neuronowej Tensor zasilana uśrednionymi danymi Word2Vec
- RNTN i wektor akapitowy ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF używany w sieci Deep Belief Network
- TF-IDF i regresja logistyczna
- Worek słów i klasyfikacja Naive Bayes
Odpowiedzi:
1) Max-Entropy (regresja logistyczna) dla wektorów TFIDF jest dobrym punktem wyjścia dla wielu zadań klasyfikacji NLP.
2) Word2vec jest zdecydowanie czymś, co warto wypróbować i porównać z modelem 1. Sugeruję użycie smaku Doc2Vec do przeglądania zdań / akapitów.
Quoc Le i Tomas Mikolov. Rozproszone reprezentacje zdań i dokumentów. http://arxiv.org/pdf/1405.4053v2.pdf
Gensim (python) ma ładny model Doc2vec.
źródło