1- Liczba cech: Pod względem modelu sieci neuronowej reprezentuje liczbę neuronów w warstwie projekcyjnej (ukrytej). Ponieważ warstwa projekcyjna jest budowana na podstawie hipotezy dystrybucyjnej, wektor numeryczny dla każdego słowa oznacza jego związek ze słowami kontekstowymi.
Funkcje te są przyswajane przez sieć neuronową, ponieważ jest to metoda bez nadzoru. Każdy wektor ma kilka zestawów cech semantycznych. Weźmy na przykład klasyczny przykład, V(King) -V(man) + V(Women) ~ V(Queen)
a każde słowo reprezentowane jest przez wektor 300-d. V(King)
będzie miał cechy semantyczne królewskości, królestwa, męskości, człowieka w wektorze w określonej kolejności. V(man)
będzie miał męskość, ludzką, działającą w określonej kolejności. Kiedy więc zostanie V(King)-V(Man)
to zrobione, męskość, cechy ludzkie zostaną unieważnione, a po dodaniu, z V(Women)
którymi mając kobiecość, cechy ludzkie zostaną dodane, dzięki czemu powstanie wektor podobny doV(Queen)
. Co ciekawe, te cechy są zakodowane w wektorze w określonej kolejności, dzięki czemu obliczenia numeryczne, takie jak dodawanie, odejmowanie, działają idealnie. Wynika to z natury metody uczenia się bez nadzoru w sieci neuronowej.
2- Istnieją dwa algorytmy aproksymacyjne. Hierarchical softmax
a negative sampling
. Po podaniu parametru próbki pobierane jest próbkowanie ujemne. W przypadku hierarchicznego softmax, dla każdego wektora słowa jego słowa kontekstowe otrzymują pozytywne wyniki, a wszystkie inne słowa w słowniku otrzymują wyniki negatywne. Problem złożoności czasowej rozwiązuje się przez próbkowanie ujemne. Podobnie jak w przypadku próbkowania ujemnego, zamiast całego słownictwa, tylko próbkowana część słownictwa otrzymuje negatywne wyniki, a wektory są trenowane, co jest o wiele szybsze niż poprzednia metoda.
źródło