Czy powinienem normalizować wektory słów word2vec przed ich użyciem?

38

Czy po szkoleniu wektorów słów za pomocą word2vec lepiej je znormalizować przed użyciem ich w niektórych aplikacjach? Tzn. Jakie są zalety / wady ich normalizacji?

Franck Dernoncourt
źródło
w zadaniu podobieństwa normalizacja poprawiła nieco wydajność mojego systemu.
keramat
Powiązane: stackoverflow.com/q/36034454/1709587
Mark Amery

Odpowiedzi:

30

Gdy dalsze aplikacje troszczą się tylko o kierunek wektorów słów (np. Zwracają uwagę tylko na podobieństwo cosinusów dwóch słów), następnie normalizują się i zapominają o długości.

Jeśli jednak dalsze aplikacje mogą (lub muszą) rozważyć bardziej sensowne aspekty, takie jak znaczenie słowa lub spójność użycia słowa (patrz poniżej), normalizacja może nie być dobrym pomysłem.


Z Levy i in., 2015 (i właściwie większość literatury na temat osadzania słów):

Wektory są znormalizowane do długości jednostkowej, zanim zostaną użyte do obliczenia podobieństwa, dzięki czemu podobieństwo cosinus i iloczyn iloczynu będą równoważne.

Również z Wilsona i Schakela, 2015 :

Większość zastosowań osadzania słów nie bada samych wektorów słów, ale relacje między nimi w celu rozwiązania, na przykład, podobieństwa i zadań związanych z relacjami słów. W przypadku tych zadań stwierdzono, że użycie znormalizowanych wektorów słów poprawia wydajność. Długość wektora słowa jest zatem zwykle ignorowana.

Normalizacja jest równoznaczna z utratą pojęcia długości. Oznacza to, że gdy znormalizujesz wektory słów, zapominasz o ich długości (norma, moduł) tuż po fazie treningu.

Jednak czasami warto wziąć pod uwagę oryginalną długość wektorów słownych.

Schakel i Wilson, 2015 zaobserwowali kilka interesujących faktów dotyczących długości wektorów słów:

Słowo, które jest konsekwentnie używane w podobnym kontekście, będzie reprezentowane przez dłuższy wektor niż słowo o tej samej częstotliwości, które jest używane w różnych kontekstach.

Nie tylko kierunek, ale także długość wektorów słów niesie ważną informację.

Długość wektora słowa zapewnia, w połączeniu z częstotliwością terminów, użyteczną miarę znaczenia słowa.

turdus-merula
źródło
Czy możemy rozwinąć „stwierdzono, że użycie znormalizowanych wektorów słów poprawia wydajność”? Czy normalizacja nie wymaga dodatkowych obliczeń?
neuryt
4
@neurite, w tym kontekście, lepsza wydajność odnosi się do lepszego wyniku z zadań ewaluacyjnych.
turdus-merula