Chciałbym porównać różnicę między tym samym słowem wymienionym w różnych źródłach. To jest, w jaki sposób autorzy różnią się w użyciu źle zdefiniowanych słów, takich jak „demokracja”.
Krótki plan był
- Weź książki, w których wzmianka o „demokracji” to zwykły tekst
- W każdej książki, wymienić
democracy
zdemocracy_%AuthorName%
- Trenuj
word2vec
model na tych książkach - Oblicz odległość między
democracy_AuthorA
,democracy_AuthorB
i inne relabeled wzmianki o „demokracji”
Tak więc „demokracja” każdego autora otrzymuje własny wektor, który służy do porównania.
Wygląda jednak na to, że word2vec
potrzeba dużo więcej niż kilku książek (każde słowo z etykietą występuje tylko w podzbiorze książek), aby wyszkolić niezawodne wektory. Oficjalna strona zaleca zestawów danych w tym miliardy słów.
Chciałem tylko zapytać, jak duży powinien być podzbiór książek jednego autora, aby wyciągać takie wnioski z word2vec
alternatywnych narzędzi, jeśli są dostępne?
text-mining
word-embeddings
Anton Tarasenko
źródło
źródło
window
parametr określa, ile słów w kontekście jest używanych do trenowania modelu dla twojego słowa wOdpowiedzi:
Wygląda na to, że doc2vec (lub wektory akapitowe / kontekstowe) mogą być odpowiednie dla tego problemu.
W skrócie, oprócz wektorów słów, dodajesz „wektor kontekstowy” (w twoim przypadku osadzanie autora), który służy do przewidywania słów środkowych lub kontekstowych.
Oznacza to, że skorzystasz ze wszystkich danych na temat „demokracji”, ale także wyodrębnisz osadzenie dla tego autora, co łącznie powinno pozwolić ci na analizę stronniczości każdego autora z ograniczonymi danymi na temat każdego autora.
Możesz użyć implementacji gensim . Dokument zawiera linki do artykułów źródłowych.
źródło