Użyłem LDA do zbioru dokumentów i znalazłem kilka tematów. Wynikiem mojego kodu są dwie macierze zawierające prawdopodobieństwa; jedno prawdopodobieństwo doc-temat i drugie prawdopodobieństwo słowo-temat. Ale tak naprawdę nie wiem, jak wykorzystać te wyniki do przewidzenia tematu nowego dokumentu. Korzystam z próbkowania Gibbs. Czy ktoś wie jak? dzięki
text-mining
topic-models
Hossein
źródło
źródło
Odpowiedzi:
Spróbowałbym „złożyć”. Odnosi się to do pobrania jednego nowego dokumentu, dodania go do korpusu, a następnie uruchomienia próbkowania Gibbsa tylko na słowach w tym nowym dokumencie , zachowując przypisania tematyczne starych dokumentów bez zmian. Zwykle zbiega się to szybko (może 5-10-20 iteracji) i nie trzeba próbkować starego korpusu, więc działa również szybko. Na końcu będziesz mieć przypisanie tematu do każdego słowa w nowym dokumencie. Zapewni to dystrybucję tematów w tym dokumencie.
W twoim samplerze Gibbs prawdopodobnie masz coś podobnego do następującego kodu:
Składanie jest takie samo, z tym wyjątkiem, że zaczynasz od istniejących macierzy, dodajesz do nich tokeny nowego dokumentu i próbkujesz tylko dla nowych tokenów. To znaczy:
źródło