Parellel między LSA i pLSA

9

W oryginalnej pracy pLSA autor, Thomas Hoffman, rysuje paralelę między strukturami danych pLSA i LSA, o których chciałbym z tobą porozmawiać.

Tło:

Czerpiąc inspirację z wyszukiwania informacji, załóżmy, że mamy kolekcję N dokumenty

D={d1,d2,....,dN}
i słownictwo M warunki
Ω={ω1,ω2,...,ωM}

corpus X może być reprezentowany przez N×M macierz koocurencji.

W Latent Semantic Analisys autorstwa SVD macierzX jest podzielony na trzy macierze:

X=UΣVT
gdzie Σ=diag{σ1,...,σs} i σi są pojedynczymi wartościami X i s jest ranga X.

Przybliżenie LSA z X

X^=U^Σ^VT^
jest następnie obliczany obcięcie trzech macierzy do pewnego poziomu k<s, jak pokazano na zdjęciu:

wprowadź opis zdjęcia tutaj

W pLSA wybrano stały zestaw tematów (zmienne ukryte) Z={z1,z2,...,zZ} przybliżenie X jest obliczany jako:

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T
gdzie trzy macierze są tymi, które maksymalizują prawdopodobieństwo modelu.

Rzeczywiste pytanie:

Autor stwierdza, że ​​te relacje istnieją:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

i że zasadniczą różnicą między LSA i pLSA jest funkcja celu wykorzystywana do określania optymalnego rozkładu / aproksymacji.

Nie jestem pewien, czy ma rację, ponieważ uważam, że dwie macierze X^ reprezentują różne koncepcje: w LSA jest to przybliżona liczba przypadków, w których termin pojawia się w dokumencie, aw pLSA jest (szacunkowe) prawdopodobieństwo, że termin pojawi się w dokumencie.

Czy możesz mi pomóc wyjaśnić tę kwestię?

Ponadto załóżmy, że obliczyliśmy dwa modele na korpusie, biorąc pod uwagę nowy dokument d, w LSA używam do obliczenia przybliżenia jako:

d^=d×V×VT
  1. Czy to jest zawsze ważne?
  2. Dlaczego nie otrzymuję znaczącego wyniku zastosowania tej samej procedury do pLSA?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

Dziękuję Ci.

Aslan986
źródło

Odpowiedzi:

12

Dla uproszczenia podaję tutaj związek między LSA i nieujemnym rozkładem macierzy (NMF), a następnie pokazuję, jak prosta modyfikacja funkcji kosztu prowadzi do pLSA. Jak stwierdzono wcześniej, zarówno LSA, jak i pLSA są metodami faktoryzacji w tym sensie, że aż do normalizacji wierszy i kolumn rozkład niskiego rzędu macierzy terminów dokumentu:

X=UΣD

używając poprzednich notacji. Mówiąc prościej, macierz terminów dokumentu można zapisać jako iloczyn dwóch macierzy:

X=ABT

gdzie AN×s i BM×s. W przypadku LSA zgodność z poprzednim wzorem uzyskuje się przez ustawienie A=UΣ i B=VΣ.

Prostym sposobem na zrozumienie różnicy między LSA i NMF jest użycie ich interpretacji geometrycznej:

  • LSA to rozwiązanie:

    minA,BXABTF2,
  • NMF- to rozwiązanie: L2

    minA0,B0XABTF2,
  • NMF-KL jest równoważne z pLSA i jest rozwiązaniem:

    minA0,B0KL(X||ABT).

gdzie jest Kullback-Leiblera rozbieżność pomiędzy macierzy i . Łatwo zauważyć, że wszystkie powyższe problemy nie mają unikalnego rozwiązania, ponieważ można pomnożyć przez liczbę dodatnią i podzielićKL(X||Y)=ijxijlogxijyijXYABprzez ten sam numer, aby uzyskać tę samą wartość celu. Stąd - w przypadku LSA ludzie zwykle wybierają podstawę ortogonalną posortowaną według malejących wartości własnych. Jest to podane przez rozkład SVD i identyfikuje rozwiązanie LSA, ale każdy inny wybór byłby możliwy, ponieważ nie miałby wpływu na większość operacji (podobieństwo kosinusu, wspomniana powyżej formuła wygładzania itp.). - w przypadku NMF rozkład ortogonalny nie jest możliwy, ale rzędy są zwykle ograniczone do sumy do jednego, ponieważ ma bezpośrednią interpretację probabilistyczną jako . Jeśli ponadto wiersze są znormalizowane (tj. Suma do jednego), wówczas wiersze muszą sumować do jednego, co prowadzi do interpretacji probabilistycznejAp(zk|di)XBp(fj|zk) . Istnieje niewielka różnica w porównaniu z wersją pLSA podaną w powyższym pytaniu, ponieważ kolumny są ograniczone do sumowania do jednego, więc wartości w są , ale różnica jest tylko zmianą parametryzacji problem pozostaje ten sam.AAp(di|zk)

Teraz, aby odpowiedzieć na początkowe pytanie, jest coś subtelnego w różnicy między LSA i pLSA (i innymi algorytmami NMF): ograniczenia nieujemności wywołują „efekt grupowania”, który nie jest prawidłowy w klasycznym przypadku LSA, ponieważ wartość osobliwa Rozwiązanie rozkładu jest niezmienne obrotowo. Ograniczenia nieujemności w jakiś sposób przełamują tę niezmienność rotacyjną i nadają czynniki o pewnym znaczeniu semantycznym (tematy w analizie tekstu). Pierwszy artykuł, który to wyjaśni, to:

Donoho, David L. i Victoria C. Stodden. „Kiedy nieujemna faktoryzacja macierzy zapewnia prawidłowy rozkład na części?” Postępy w neuronowych systemach przetwarzania informacji 16: materiały z konferencji w 2003 r. MIT Press, 2004. [link]

W przeciwnym razie relacja między PLSA i NMF jest opisana tutaj:

Ding, Chris, Tao Li i Wei Peng. „O równoważności między nieujemnym rozkładem macierzy i probabilistycznym utajonym indeksowaniem semantycznym”. Statystyka obliczeniowa i analiza danych 52.8 (2008): 3913-3927. [połączyć]

Guillaume
źródło