Dlaczego pomijanie gramów jest lepsze w przypadku rzadkich słów niż CBOW?

Odpowiedzi:

14

W CBOW wektory ze słów kontekstowych są uśredniane przed przewidywaniem słowa środkowego. W skip-gramie nie ma uśrednienia wektorów osadzania. Wygląda na to, że model może nauczyć się lepszych reprezentacji rzadkich słów, gdy ich wektory nie są uśredniane z innymi słowami kontekstu w procesie prognozowania.

Aaron
źródło
13

Oto moje uproszczone i raczej naiwne zrozumienie różnicy:

Jak wiemy, CBOW uczy się przewidywać słowo na podstawie kontekstu. Lub zmaksymalizuj prawdopodobieństwo słowa docelowego, patrząc na kontekst. I to jest problem dla rzadkich słów. Na przykład, biorąc pod uwagę kontekst, yesterday was really [...] daymodel CBOW powie ci, że najprawdopodobniej słowo to beautifullub nice. Słowa takie delightfulbędą znacznie mniej zwracać uwagę na model, ponieważ jest on zaprojektowany do przewidywania najbardziej prawdopodobnego słowa. Rzadkie słowa zostaną wygładzone na wielu przykładach za pomocą częstszych słów.

Z drugiej strony skip-gram służy do przewidywania kontekstu. Biorąc pod uwagę to słowo delightful, musi je zrozumieć i powiedzieć nam, że istnieje duże prawdopodobieństwo, kontekst yesterday was really [...] daylub inny istotny kontekst. W przypadku pominięcia gram słowo delightfulnie będzie próbowało konkurować ze słowem, beautifulale zamiast tego delightful+contextpary będą traktowane jak nowe obserwacje. Z tego powodu skip-gram będzie potrzebował więcej danych, aby nauczyć się rozumieć nawet rzadkie słowa.

Serhiy
źródło
0

Właśnie natrafiłem na artykuł, który pokazuje coś przeciwnego: że CBOW jest lepszy w przypadku rzadkich słów niż pomiń gram https://arxiv.org/abs/1609.08293 . Zastanawiam się, jakie są źródła tego roszczenia na https://code.google.com/p/word2vec/ .

xsway
źródło
Myślę, że Mikołaj sam napisał ten zestaw narzędzi. Co ciekawe, w swoim artykule: papers.nips.cc/paper/… stwierdza: „Pokazujemy, że podpróbkowanie częstych słów podczas treningu powoduje znaczne przyspieszenie (około 2x - 10x) i poprawia dokładność przedstawiania rzadziej występujących słów. „ więc jego pomiń gram z rozszerzeniem podpróbkowania.
Kevin