Czy zgłoszono najnowszą wydajność wykorzystania wektorów akapitowych do analizy sentymentów?

Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki.

Miałem nadzieję, że ocenię tę technikę pod kątem innych problemów z klasyfikacją tekstu, jako alternatywy dla tradycyjnej reprezentacji worków słów. Jednak natknąłem się na post drugiego autora w wątku w grupie Google word2vec, który dał mi pauzę:

Latem próbowałem odtworzyć wyniki Quoc; Mógłbym zwiększyć poziom błędów w zestawie danych IMDB do około 9,4% - 10% (w zależności od tego, jak dobra była normalizacja tekstu). Nie mogłem jednak zbliżyć się do tego, co Quoc napisał w artykule (błąd 7,4%, to ogromna różnica) ... Oczywiście zapytaliśmy Quoc również o kod; obiecał opublikować, ale jak dotąd nic się nie wydarzyło. ... Zaczynam myśleć, że wyniki Quoc nie są w rzeczywistości odtwarzalne.

Czy ktoś miał już sukces w odtwarzaniu tych wyników?

text-mining natural-language word-embeddings sentiment-analysis reproducible-research bskaggs
źródło

Czy ta sytuacja już się zmieniła? Wiem, że Gensim zaimplementował wersję doc2vec (wektory akapitów / dokumentów), patrz: radimrehurek.com/gensim/models/doc2vec.html, ale nie podjęto próby odtworzenia wyników w cytowanym tutaj artykule.

Doctorambient

Tak, były próby odtworzenia wyników papierowych przy użyciu gensim : patrz notatnik docytowy IPython .

Radim

Odpowiedzi:

Przypis na stronie http://arxiv.org/abs/1412.5335 (jednym z autorów jest Tomas Mikolov) mówi

W naszych eksperymentach, aby dopasować wyniki z (Le & Mikolov, 2014), zastosowaliśmy się do sugestii Quoc Le, aby użyć hierarchicznego softmax zamiast negatywnego próbkowania. Daje to jednak wynik dokładności 92,6% tylko wtedy, gdy dane treningowe i testowe nie są tasowane. Dlatego uważamy ten wynik za nieważny.

Michaił Korobow
źródło

Nie rozumiem, dlaczego „nie przetasowano” ==> nieprawidłowe. Czy nie ma dobrze określonego podziału między zestawem pociągów / testów? Czyli to, co jest pociągiem / testem, zależy od tego, jak przetasujesz (oryginalny) zestaw danych? Kolejność zestawu testowego nie powinna mieć znaczenia (nie ma oceny dynamicznej, prawda?). Kolejność zestawu treningowego również nie powinna mieć większego znaczenia ...

capybaralet

@ user2429920 Jeśli występują różnice, to oczywiście kolejność ma znaczenie.

JAB