Modele tematyczne dla krótkich dokumentów

14

Zainspirowany tym pytaniem zastanawiam się, czy nie wykonano żadnej pracy nad modelami tematycznymi dla dużych kolekcji niezwykle krótkich tekstów. Moją intuicją jest to, że Twitter powinien być naturalną inspiracją dla takich modeli. Jednak z niektórych ograniczonych eksperymentów wygląda na to, że standardowe modele tematyczne (LDA itp.) Działają dość słabo na tego rodzaju danych.

Czy ktoś tam wie o pracy wykonanej w tym obszarze? Ten artykuł mówi o zastosowaniu LDA do Twittera, ale naprawdę interesuje mnie, czy istnieją inne algorytmy, które działają lepiej w kontekście krótkiego dokumentu.

Martin O'Leary
źródło
2
Twitter jest szczególnie trudnym zestawem danych do modelowania tematów nie tylko ze względu na mały rozmiar „dokumentów”, ale także ze względu na rodzaj tekstu. Ludzie zwykle używają różnych skrótów tekstowych, co jeszcze bardziej utrudnia identyfikację współwystępowania.
Nick
Zobacz listę dobrych artykułów i odpowiadające im kody źródłowe do modelowania tematów na Tweetach
NQD

Odpowiedzi:

7

To późna odpowiedź, ale może być przydatna dla innych osób szukających powiązanych badań i narzędzi do tego problemu:

  1. Weiwei Guo z Kolumbii zaimplementował kod do modelowania krótkich tekstów. Opisał implementację w artykule „Modelowanie zdań w utajonej przestrzeni” ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ), a kod jest dostępny tutaj: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Chociaż nie jest to modelowanie tematów, jeśli masz zadanie klasyfikacji obejmujące krótkie fragmenty tekstu, możesz użyć LibShortText. Z opisu ich strony internetowej

„LibShortText to narzędzie typu open source do klasyfikacji i analizy krótkich tekstów. Może obsłużyć klasyfikację, na przykład, tytułów, pytań, zdań i krótkich wiadomości ...”

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

DPS
źródło
6

Chociaż nie jestem zbyt obeznany z jego pracą, wiem, że Jacob Eisenstein wykonał pracę w zakresie analizy tekstu i modeli graficznych w danych Twittera. W szczególności w tym artykule opisano zastosowanie modelowania tematów w danych Twittera i mikroblogach.

Edycja: właściwie po lekturze trochę więcej, stwierdzają:

Jednak średnia wiadomość na Twitterze to tylko szesnaście tokenów słów, co jest zbyt rzadkie, aby można było zastosować tradycyjne modelowanie tematów; zamiast tego zebraliśmy wszystkie wiadomości od danego użytkownika w jeden dokument.

Być może więc ten artykuł może nie być zbyt pomocny, ale może inne publikacje Eisensteina mogą poprowadzić cię we właściwym kierunku.

Junier
źródło
6

Niedawny artykuł zatytułowany „ Model tematu biterm dla krótkiego tekstu ” (WWW13) poczynił pewne postępy w tym temacie, a oto jego kod

Xiaohui Yan
źródło
2
Potwierdzam, że BiTerm LDA działało całkiem dobrze w modelowaniu tematów krótkich wypowiedzi (3-8 słów) i późniejszej klasyfikacji.
Vladislavs Dovgalecs