jaka jest różnica między klasyfikacją tekstu a modelami tematycznymi?

20

Znam różnicę między klastrowaniem a klasyfikacją w uczeniu maszynowym, ale nie rozumiem różnicy między klasyfikacją tekstu a modelowaniem tematów dla dokumentów. Czy mogę używać modelowania tematów do dokumentów, aby zidentyfikować temat? Czy mogę używać metod klasyfikacji do klasyfikowania tekstu w tych dokumentach?

Ali
źródło

Odpowiedzi:

28

Klasyfikacja tekstu

Daję ci kilka dokumentów, z których każdy ma dołączoną etykietę. Proszę o wyjaśnienie, dlaczego Twoim zdaniem treść dokumentów otrzymała te etykiety na podstawie ich słów. Następnie daję ci nowe dokumenty i pytam, co Twoim zdaniem powinna być etykieta każdego z nich. Etykiety mają dla mnie znaczenie, niekoniecznie dla Ciebie.

Modelowanie tematów

Daję ci kilka dokumentów, bez etykiet. Proszę o wyjaśnienie, dlaczego dokumenty zawierają słowa, które określają, poprzez wskazanie niektórych tematów, które dotyczą każdego z nich. Opowiadasz mi tematy, mówiąc mi, ile z nich jest w każdym dokumencie, a ja decyduję, co te tematy „znaczą”, jeśli w ogóle.

Musisz wyjaśnić, co ja, przez „zidentyfikuj jeden temat” lub „sklasyfikuj tekst”.

Sean Owen
źródło
10

Ale nie wiem, jaka jest różnica między klasyfikacją tekstu a modelami tematów w dokumentach

Text Classificationjest formą nadzorowanego uczenia się, dlatego zbiór możliwych klas jest znany / definiowany z góry i nie ulega zmianie.

Topic Modelingjest formą uczenia się bez nadzoru (podobnego do grupowania), więc zestaw możliwych tematów jest nieznany apriori . Są one zdefiniowane w ramach generowania modeli tematów. Z niedeterministycznym algorytmem, takim jak LDA, będziesz otrzymywać różne tematy za każdym razem, gdy uruchomisz algorytm.

Text classificationczęsto obejmuje wzajemnie wykluczające się klasy - pomyśl o nich jak o wiadrach.
Ale nie musi: biorąc pod uwagę odpowiedni rodzaj danych wejściowych opatrzonych etykietą, można ustawić serię nie wykluczających się wzajemnie klasyfikatorów binarnych.

Topic modelingzasadniczo nie wyklucza się wzajemnie: ten sam dokument może mieć rozkład prawdopodobieństwa rozłożony na wiele tematów. Ponadto istnieją również hierarchiczne metody modelowania tematów.

Czy mogę również użyć modelu tematu do dokumentów, aby później zidentyfikować jeden temat. Czy mogę użyć klasyfikacji do klasyfikacji tekstu w tych dokumentach?

Jeśli pytasz, czy możesz wziąć wszystkie dokumenty przypisane do jednego tematu przez algorytm modelowania tematów, a następnie zastosować klasyfikator do tej kolekcji, to tak, na pewno możesz to zrobić.

Nie jestem jednak pewien, czy ma to sens: przynajmniej musisz ustalić próg rozkładu prawdopodobieństwa tematu, powyżej którego będziesz uwzględniać dokumenty w swojej kolekcji (zwykle 0,05-0,1).

Czy możesz rozwinąć swój przypadek użycia?

Nawiasem mówiąc, jest tu świetny samouczek na temat modelowania tematów za pomocą biblioteki MALLET dla Javy: Pierwsze kroki z modelowaniem tematów i MALLETEM

Charlie Greenbacker
źródło
4

Modele tematów są zwykle bez nadzoru . Istnieją również „nadzorowane modele tematyczne”; ale nawet wtedy próbują modelować tematy w ramach zajęć .

Na przykład możesz mieć klasę „piłka nożna”, ale w tej klasie mogą być tematy związane z konkretnymi meczami lub drużynami.

Wyzwanie związane z tematami polega na tym, że zmieniają się one z czasem; rozważ powyższy przykład dopasowania. Takie tematy mogą się pojawiać i znikać.

Erich Schubert
źródło