Pochodna utraty entropii krzyżowej w word2vec

Próbuję przejść przez pierwszy zestaw problemów z materiałem do kursu online cs224d klasy Stanford i mam pewne problemy z problemem 3A: Używając modelu pomiń gram word2vec z funkcją przewidywania softmax i funkcją utraty entropii krzyżowej, my chcę obliczyć gradienty w stosunku do przewidywanych wektorów słów. Biorąc pod uwagę funkcję softmax:

$\hat{w_i} = \Pr(word_i\mid\hat{r}, w) = \frac{\exp(w_i^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}$

i funkcja entropii krzyżowej:

$CE(w, \hat{w}) = -\sum\nolimits_{k} w_klog(\hat{w_k})$

musimy obliczyć $\frac{\partial{CE}}{\partial{\hat{r}}}$

Moje kroki są następujące:

$CE(w, \hat{w}) = -\sum_{k}^{|V|} w_klog(\frac{\exp(w_k^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})})$

$= -\sum_{k}^{|V|} w_klog(\exp(w_k^T \hat{r}) - w_klog(\sum_{j}^{|V|}exp(w_j^T\hat{r}))$

teraz podane $w_k$ jest jednym gorącym wektorem, a ja poprawną klasą:

$CE(w, \hat{w}) = - w_i^T\hat{r} + log(\sum_{j}^{|V|}exp(w_j^T\hat{r}))$

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j$

Czy to jest poprawne, czy może być jeszcze bardziej uproszczone? Chcę się upewnić, że jestem na dobrej drodze, ponieważ rozwiązania problemów nie są publikowane online. Ponadto poprawne wykonanie pisemnych zadań jest ważne dla prawidłowego wykonania zadań programistycznych.

machine-learning self-study word2vec slushi
źródło

Dodaj znacznik do samodzielnej nauki do pytania

Dawny33

2. znak minus w pierwszej tożsamości dziennika powinien być plusem. Próbowałem to naprawić, ale zmiany muszą zawierać co najmniej 6 znaków: \

FatalMojo

Odpowiedzi:

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \frac{1}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r}) w_{j}

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j$ można przepisać jako uwaga, obie są indeksowane przez j, ale tak naprawdę powinny to być 2 różne zmienne. Byłoby to bardziej odpowiednie co przekłada się na

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{j}^{| V |} (\frac{\exp (w_{j}^{⊤} \hat{r})}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \cdot w_{j})

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{j}^{|V|} \left( \frac{ \exp(w_j^\top\hat{r}) }{\sum_{j}^{|V|}exp(w_j^T\hat{r})} \cdot w_j \right)$

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{x}^{| V |} (\frac{\exp (w_{x}^{⊤} \hat{r})}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \cdot w_{x})

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{x}^{|V|} \left( \frac{ \exp(w_x^\top\hat{r}) }{\sum_{j}^{|V|}exp(w_j^T\hat{r})} \cdot w_x \right)$

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{x}^{| V |} Pr (w o r d_{x} ∣ \hat{r}, w) \cdot w_{x}

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{x}^{|V|} \Pr(word_x\mid\hat{r}, w) \cdot w_x$

FatalMojo
źródło

Odpowiedni, szczegółowo omawia to pochodzenie w wykładzie 2 @ 38:00

FatalMojo

Dlaczego sumy powinny być indeksowane według różnych zmiennych?

Yamaneko

Aby uniknąć zamieszania. Matematycznie oznacza to to samo, ale dobrą praktyką jest zmiana etykiety indeksu podczas dodawania nowej sumy.

FatalMojo