Tytuł tego pytania jest osobnym pytaniem do jego tekstu, więc odpowiem na oba osobno (biorąc pod uwagę, że jedno prowadzi do drugiego).
- Jak mogę wywnioskować niewidoczne zdania:
# ... trained model stored in var model
list_of_words = ["this", "is", "a", "new","unseen", "sentence"]
inferred_embedding = model.infer_vector(list_of_words)
W∈RN×PD∈RM×Rk
1M∑i=1M1|Di|∑t=k|Di−1|−klog(p(wit|wit−k,...,wit+k,Di))
Diith|Di|wittthithD
WD
- Czy możemy wywnioskować, że ewentualnie niewidoczne zdanie dokładnie odpowiada zdaniu w zestawie treningowym?
D
Nawet naprawa losowego materiału siewnego może nie działać, istnieje wiele innych zmiennych, które mogą wpływać na jego zbieżność, zobacz pierwszą odpowiedź na https://github.com/RaRe-Technologies/gensim/issues/374 .
W każdym razie możesz znaleźć najbardziej podobną etykietę w swoim zestawie danych do wywnioskowanego zdania, po prostu iterując zestaw treningowy i porównując podobieństwo do wnioskowanego wektora. Ale dlaczego chcesz dokładnie dopasować do czegoś w zestawie treningowym? to właśnie wyrażenia regularne do celów osadzania tych dokumentów dotyczą nadzorowanych lub nienadzorowanych zadań edukacyjnych (tj. klasyfikacji i grupowania).