Zainspirowany tym pytaniem zastanawiam się, czy nie wykonano żadnej pracy nad modelami tematycznymi dla dużych kolekcji niezwykle krótkich tekstów. Moją intuicją jest to, że Twitter powinien być naturalną inspiracją dla takich modeli. Jednak z niektórych ograniczonych eksperymentów wygląda na to, że standardowe modele tematyczne (LDA itp.) Działają dość słabo na tego rodzaju danych.
Czy ktoś tam wie o pracy wykonanej w tym obszarze? Ten artykuł mówi o zastosowaniu LDA do Twittera, ale naprawdę interesuje mnie, czy istnieją inne algorytmy, które działają lepiej w kontekście krótkiego dokumentu.
references
text-mining
topic-models
natural-language
Martin O'Leary
źródło
źródło
Odpowiedzi:
To późna odpowiedź, ale może być przydatna dla innych osób szukających powiązanych badań i narzędzi do tego problemu:
Weiwei Guo z Kolumbii zaimplementował kod do modelowania krótkich tekstów. Opisał implementację w artykule „Modelowanie zdań w utajonej przestrzeni” ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ), a kod jest dostępny tutaj: http: // www .cs.columbia.edu / ~ weiwei / code.html
Chociaż nie jest to modelowanie tematów, jeśli masz zadanie klasyfikacji obejmujące krótkie fragmenty tekstu, możesz użyć LibShortText. Z opisu ich strony internetowej
„LibShortText to narzędzie typu open source do klasyfikacji i analizy krótkich tekstów. Może obsłużyć klasyfikację, na przykład, tytułów, pytań, zdań i krótkich wiadomości ...”
http://www.csie.ntu.edu.tw/~cjlin/libshorttext/
źródło
Chociaż nie jestem zbyt obeznany z jego pracą, wiem, że Jacob Eisenstein wykonał pracę w zakresie analizy tekstu i modeli graficznych w danych Twittera. W szczególności w tym artykule opisano zastosowanie modelowania tematów w danych Twittera i mikroblogach.
Edycja: właściwie po lekturze trochę więcej, stwierdzają:
Być może więc ten artykuł może nie być zbyt pomocny, ale może inne publikacje Eisensteina mogą poprowadzić cię we właściwym kierunku.
źródło
Niedawny artykuł zatytułowany „ Model tematu biterm dla krótkiego tekstu ” (WWW13) poczynił pewne postępy w tym temacie, a oto jego kod
źródło