Modele tematyczne i metody współwystępowania słów

Ostatnio wzrosła ogromna literatura omawiająca sposoby wydobywania informacji z tekstu pisanego. Dlatego opiszę tylko cztery kamienie milowe / popularne modele i ich zalety / wady, a tym samym podkreślę (niektóre) główne różnice (lub przynajmniej to, co uważam za główne / najważniejsze różnice).

Wspominasz o „najłatwiejszym” podejściu, jakim byłoby grupowanie dokumentów poprzez dopasowanie ich do predefiniowanego zapytania pojęć (jak w PMI). Te metody dopasowania leksykalnego mogą być jednak niedokładne z powodu polisemii (wiele znaczeń) i synonimii (wiele słów o podobnych znaczeniach) pojedynczych terminów.

Jako remedium, ukryte indeksowanie semantyczne ( LSI ) próbuje temu zaradzić poprzez mapowanie terminów i dokumentów w utajoną przestrzeń semantyczną poprzez rozkład pojedynczej wartości. Wyniki LSI są bardziej solidnymi wskaźnikami znaczenia niż poszczególne terminy. Jednak jedną wadą LSI jest brak solidnych podstaw probabilistycznych.

Zostało to częściowo rozwiązane przez wynalazek probabilistycznego LSI ( pLSI ). W modelach pLSI każde słowo w dokumencie jest pobierane z modelu mieszanki określonego za pomocą wielomianowych zmiennych losowych (co umożliwia także współwystępowanie wyższego rzędu, jak wspomniano w @sviatoslav hong). Był to ważny krok naprzód w probabilistycznym modelowaniu tekstu, ale był niekompletny w tym sensie, że nie oferuje żadnej probabilistycznej struktury na poziomie dokumentów.

Latent Dirichlet Allocation ( LDA ) łagodzi to i był pierwszym w pełni probabilistycznym modelem klastrowania tekstu. Blei i in. (2003) pokazują, że pLSI jest maksymalnym oszacowanym a-posteriori modelem LDA według jednolitego Dirichleta przed.

Należy zauważyć, że wspomniane powyżej modele (LSI, pLSI, LDA) mają wspólną cechę, że są oparte na założeniu „worka słów” - tj. Że w dokumencie słowa można wymieniać, tzn. Kolejność słów w dokumencie może być zaniedbanym. To założenie wymienności daje dalsze uzasadnienie dla LDA w porównaniu z innymi podejściami: Zakładając, że nie tylko słowa w dokumentach są wymienne, ale także dokumenty, tzn. Można pominąć kolejność dokumentów w korpusie, twierdzenie De Finettistwierdza, że każdy zestaw wymiennych zmiennych losowych ma reprezentację jako rozkład mieszanki. Zatem jeśli zakłada się wymienność dokumentów i słów w dokumentach, potrzebny jest model mieszany dla obu. Dokładnie to właśnie osiąga LDA, ale PMI lub LSI nie (a nawet pLSI nie tak piękne jak LDA).

Momo
źródło

1/2 dzięki! Bardzo czyste. Pozwól, że sprawdzę, czy mam rację: w LSI dokumenty są tworzone przez mieszaninę słów (bez pojęcia tematów), a słowa i dokumenty są mapowane do przestrzeni semantycznej niższego wymiaru za pomocą SVD. Ponieważ słowa o podobnym znaczeniu semantycznym są odwzorowane bliżej, może poradzić sobie z synonimem, ale ma problemy z polisemią. pLSI rozwiązuje problem polisemy, wprowadzając pojęcie tematów. W pLSI słowa są rysowane z wielomianowej dystrybucji słów (tematów), to samo słowo może należeć do kilku tematów, a dokument ma wiele tematów, chociaż nie jest to jawnie modelowane.

kanzen_master

Myślę, że ogólnie dobrze to rozumiesz. Kilka mniejszych poprawek: uważa się, że LSI działa dobrze zarówno z polisemią, jak i synomią. pLSI jest w zasadzie formułą pozwalającą osiągnąć to, do czego dąży LSI za pomocą narzędzi do analizy klas ukrytych / modeli mieszanin i prawdopodobieństwa, a nie tylko algebry liniowej. LDA w porównaniu z pLSI to model w pełni generatywny, określający rozkład tematów na dokument.

Momo

Jeśli chodzi o twoje uwagi dotyczące nadmiernego dopasowania i przewidywania, nie mam wystarczającej wiedzy, aby uzyskać kwalifikowane oświadczenie. Ale mimo całej swojej wartości nie rozumiem, dlaczego LDA powinna być mniej podatna na nadmierne dopasowanie niż pLSI (ponieważ LDA w zasadzie dodaje tylko model wcześniejszy niż pLSI). Oba nie mają wbudowanej korekty nadmiernego dopasowania itp. „Prognozowanie” nowych dokumentów może rzeczywiście być łatwiejsze lub wykonalne przy użyciu w pełni generatywnego modelu, takiego jak LDA, patrz stats.stackexchange.com/questions/9315/... Ale postrzegałbym LDA jako model bez nadzoru, opisowy.

Momo

Dzięki jeszcze raz! Tylko 2 ostatnie pytania: (1) W odniesieniu do polisemii, w tym pdf, koniec strony 3 Hoffman stwierdza, że jedną z różnic między PLSI a LSI jest polisemia, ponieważ to samo słowo może należeć do różnych rozkładów słów (tematów); dlatego myślałem, że LSI nie działa z polysemy. (2) Jeśli chodzi o nadmierne dopasowanie, blog ten stwierdza, że liniowy wzrost parametrów sugeruje, że model jest podatny na nadmierne dopasowanie. Co myślisz ?

kanzen_master

Nie ma problemu. Wiesz już dużo o tych rzeczach, więc też się uczę. ad (1) Jak zwykle, zależy: LSI może obsłużyć polisemię ze względu na liniową kombinację terminów, jak w PCA. Robi to lepiej z synonimami, ale do pewnego stopnia także z polisemią. Zasadniczo słowa wielomianowe, które są podobne, są dodawanymi składnikami słów o podobnym znaczeniu. Robi to jednak znacznie gorzej niż pLSI, ponieważ każde wystąpienie słowa jest reprezentowane jako pojedynczy punkt w przestrzeni. Reprezentacja słowa jest zatem średnią wszystkich różnych znaczeń tego słowa w korpusie.

Momo

Modele tematyczne i metody współwystępowania słów

Odpowiedzi: