W jaki sposób model pomijania gramów Word2Vec generuje wektory wyjściowe?

11

Mam problemy ze zrozumieniem modelu pominięcia gramów algorytmu Word2Vec.

W ciągłym pakiecie słów łatwo jest zobaczyć, jak słowa kontekstowe mogą się „zmieścić” w sieci neuronowej, ponieważ w zasadzie uśrednia się je po pomnożeniu każdej z reprezentacji kodowania jednokrotnego z macierzą wejściową W.

Jednak w przypadku pominięcia gram, wektor słowa wejściowego uzyskuje się tylko przez pomnożenie kodowania „one-hot” przez macierz wejściową, a następnie należy uzyskać reprezentacje wektorów C (= rozmiar okna) dla słów kontekstu przez pomnożenie reprezentacja wektora wejściowego z macierzą wyjściową W '.

Chodzi mi o to, że mam słownik wielkości i kodowanie rozmiaru , i macierz jako macierz wyjściowa. Biorąc pod uwagę słowo z kodowaniem jednorazowym ze słowami kontekstowymi i (z jednokrotnymi powtórzeniami i ), jeśli pomnożymy przez macierz wejściową , otrzymamy , jak teraz generujesz z tego wektory score? $V$ $N$ $W \in \mathbb{R}^{V\times N}$ $W' \in \mathbb{R}^{N\times V}$ $w_i$ $x_i$ $w_j$ $w_h$ $x_j$ $x_h$ $x_i$ $W$ ${\bf h} := x_i^TW = W_{(i,\cdot)} \in \mathbb{R}^N$ $C$

neural-networks deep-learning natural-language word2vec word-embeddings crscardellino
źródło

7

Miałem ten sam problem ze zrozumieniem. Wydaje się, że wektor wyniku wyjściowego będzie taki sam dla wszystkich haseł C. Różnica w błędach dla każdego wektora reprezentowanego na gorąco będzie inna. Zatem wektory błędów są używane w propagacji wstecznej do aktualizacji wag.

Proszę popraw mnie jeżeli się mylę.

źródło: https://iksinc.wordpress.com/tag/skip-gram-model/

yazhi
źródło

więc ?

W^{'} \in R^{N \times (V * C)}

$W' \in \mathbb{R}^{N\times (V*C)}$

Fabich,

0

W obu modelach wynik wyjściowy zależy od używanej funkcji oceniania. Mogą być dwie funkcje punktowe: softmax lub próbkowanie ujemne. Więc używasz funkcji softmax score. Otrzymasz rozmiar funkcji punktowej N * D. Tutaj D jest wymiarem wektora słowa. N jest liczbą przykładów. Każde słowo jest jak klasa w architekturze sieci neuronowej.

Shamane Siriwardhana
źródło

0

W modelu pomijania gramów jedno zakodowane słowo jest podawane do dwuwarstwowej płytkiej sieci neuronowej. Ponieważ dane wejściowe są kodowane na gorąco, warstwa ukryta zawiera tylko jeden wiersz wejściowej macierzy ukrytej wagi (powiedzmy, że wiersz, ponieważ wiersz wektora wejściowego to jeden). $k_{th}$ $k_{th}$

Wyniki dla każdego słowa są obliczane według następującego równania.

$u = \mathcal{W'}^Th$

gdzie h jest wektorem w ukrytej warstwie, a to ukryta macierz wyjściowej masy. Po obliczeniu obliczane są rozkłady wielomianowe, gdzie ma rozmiar okna. Rozkłady są obliczane według następującego równania. $\mathcal{W'}$ $u$ $\mathcal{C}$ $\mathcal{C}$

$p(w_{c,j} = w_{O,c}|w_I)=\frac{\exp{u_{c,j}}}{\sum_{j'=1}^V\exp{u_{j'}}}$

Jak widać, wszystkie dystrybucje są różne. (Aby uzyskać więcej informacji: https://arxiv.org/pdf/1411.2738.pdf ). W rzeczywistości byłoby to bardziej jasne, gdyby użyli czegoś takiego jak poniższy rysunek. $\mathcal{C}$

Podsumowując, istnieje tylko jedno źródło wektora . Jednak różne rozkłady są obliczane przy użyciu funkcji softmax. $u$ $\mathcal{C}$

$\textbf{References:}$

Xin Rong, Wyjaśnienie nauki parametrów Word2Vec

użytkownik3108764
źródło

Czyli macierz W jest zasadniczo wektorem słów (wyjście algorytmu), a W 'to zupełnie inna macierz, którą wyrzucamy?

Nadav B,

W 'to także wektory słów, które są równie dobre.

user3108764,

1

To jest źle. Zobacz równanie (26) z Xin Rong, Wyjaśnienie uczenia się parametrów Word2Vec. W rzeczywistości . Wektor wyniku wyjściowego będzie taki sam dla wszystkich haseł C.

p (w_{c, j} = w_{O, c} | w_{I}) = \frac{\exp u_{c, j}}{\sum_{j^{'} = 1}^{V} \exp u_{j^{'}}} = \frac{\exp u_{j}}{\sum_{j^{'} = 1}^{V} \exp u_{j^{'}}}

$p(w_{c,j} = w_{O,c}|w_I)=\frac{\exp{u_{c,j}}}{\sum_{j'=1}^V\exp{u_{j'}}}=\frac{\exp{u_{j}}}{\sum_{j'=1}^V\exp{u_{j'}}}$

siulkilulki

W jaki sposób model pomijania gramów Word2Vec generuje wektory wyjściowe?

Odpowiedzi: