W jaki sposób word2vec może być wykorzystywany do identyfikacji niewidocznych słów i powiązania ich z już wyszkolonymi danymi

11

Pracowałem nad modelem gensim word2vec i uznałem go za naprawdę interesujący. Interesuje mnie odkrycie, jak nieznane / niewidoczne słowo po sprawdzeniu z modelem będzie w stanie uzyskać podobne terminy z wyuczonego modelu.

czy to możliwe? Czy Word2vec można do tego dostosować? Lub korpus szkoleniowy musi zawierać wszystkie słowa, których chcę znaleźć podobieństwo.

gaurus
źródło

Odpowiedzi:

9

Każdy algorytm, który zajmuje się danymi tekstowymi, ma słownictwo. W przypadku word2vec słownictwo składa się ze wszystkich słów w korpusie wejściowym lub przynajmniej tych powyżej progu minimalnej częstotliwości.

Algorytmy zwykle ignorują słowa spoza ich słownictwa. Istnieją jednak sposoby na przeformułowanie problemu, tak aby w zasadzie nie było żadnych słów spoza słownictwa.

Pamiętaj, że słowa są po prostu „tokenami” w word2vec. Mogą to być ngramy lub litery. Jednym ze sposobów zdefiniowania słownictwa jest powiedzenie, że każde słowo, które występuje co najmniej X razy, znajduje się w słowniku. Następnie do Twojego słownika dodawane są najczęstsze „sylaby” (ngramy liter). Następnie dodajesz poszczególne litery do swojego słownictwa.

W ten sposób możesz zdefiniować dowolne słowo jako jedno z nich

  1. Słowo w twoim słowniku
  2. Zestaw sylab w twoim słowniku
  3. Połączony zestaw liter i sylab w Twoim słowniku
jamesmf
źródło
3

word2vec traktuje słowa jak atomy. Aby uzyskać sensowne wektory dla nieznanych słów, musisz albo

  • zmień czym są te atomy, np. zmień na literę n-gram jak w odpowiedzi jamesmf, lub
  • użyj innego modelu, który wyraźnie patrzy na to, co znajduje się w twoich słowach, np. model CWE na https://github.com/Leonard-Xu/CWE jest łatwy w użyciu.
Joachim Wagner
źródło
1
github.com/facebookresearch/fastText wydaje się działać dobrze
Joachim Wagner
tak, próbowałem tego, ale nie działa dobrze z zadaniami takimi jak segmentacja morfologiczna.
gaurus
2

Korpus treningowy musi zawierać wszystkie słowa, których chcesz znaleźć podobieństwo.

Franck Dernoncourt
źródło
0

Word2Vec i FastText zawodzą, jeśli słowa tego nie ma w słowniku. Zgłasza błąd. Daje listę wyników dla powiązanych słów. Ale niewidoczne słowo nie będzie w słowniku, prawda? Jak więc rozwiązuje problem niewidocznych słów?

Sam
źródło