Zastanawiam się, jak oznaczyć (tagować) zdania / akapity / dokumenty za pomocą doc2vec w gensim - z praktycznego punktu widzenia.
Czy musisz mieć każde zdanie / akapit / dokument z własną unikalną etykietą (np. „Wysłane_123”)? Wydaje się to przydatne, jeśli chcesz powiedzieć „jakie słowa lub zdania są najbardziej podobne do pojedynczego konkretnego zdania oznaczonego„ Wysłane_123 ”.
Czy możesz powtarzać etykiety na podstawie zawartości? Na przykład jeśli każde zdanie / akapit / dokument dotyczy określonego produktu (a dla danego produktu istnieje wiele zdań / akapitów / dokumentów), możesz oznaczyć zdania na podstawie tego produktu, a następnie obliczyć podobieństwo między słowem lub słowem zdanie i ta etykieta (które, jak sądzę, byłyby średnią wszystkich zdań, które miały związek z produktem)?
dm=0, dbow_words=1
.doc2vec
model pobiera swój algorytmword2vec
.W
word2vec
nie ma potrzeby, aby oznaczyć te słowa, bo każde słowo ma swoje znaczenie semantyczne w słownictwie. Ale w raziedoc2vec
potrzeby należy określić, ile liczb słów lub zdań przekazuje znaczenie semantyczne, aby algorytm mógł zidentyfikować je jako pojedynczą całość. Z tego powodu określamylabels
lubtags
zdanie lub akapit w zależności od poziomu przekazywanego znaczenia semantycznego.Jeśli podamy jedną etykietę do wielu zdań w akapicie, oznacza to, że wszystkie zdania w akapicie są wymagane do przekazania znaczenia. Z drugiej strony, jeśli określimy zmienne etykiety do wszystkich zdań w akapicie, oznacza to, że każdy przekazuje znaczenie semantyczne i może mieć między nimi podobieństwo lub nie.
W prostych słowach
label
oznacza semantyczne znaczenie czegoś.źródło
If we specify a single label to multiple sentences in a paragraph, it means that all the sentences in the paragraph are required to convey the meaning.
Nie jestem pewien, czy rozumiem to poprawnie. Z algorytmów POV, czy wszystkie zdania z tym samym znacznikiem są potrzebne do definicji semantycznej, czy wszystkie zdania z tym samym znacznikiem opisują to samo? W pierwszym przypadku żadne zdanie nie jest samo w sobie samowystarczalne, w drugim przypadku jedno zdanie jest samowystarczalne.