Jakie są różnice między utajoną analizą semantyczną (LSA), utajonym indeksowaniem semantycznym (LSI) i dekompozycją wartości osobliwych (SVD)?

15

Warunki te są często spotykane, ale chciałbym wiedzieć, jakie według ciebie są różnice, jeśli w ogóle.

Dzięki

Neil McGuigan
źródło

Odpowiedzi:

12

LSA i LSI są najczęściej używane jako synonimy, a społeczność zajmująca się wyszukiwaniem informacji zwykle nazywa je LSI. LSA / LSI wykorzystuje SVD do dekompozycji macierzy A dokumentu-pojęcie do macierzy U pojęcia, macierzy S liczby pojedynczej i macierzy V dokumentu koncepcji w postaci: A = USV '. Strona wikipedia zawiera szczegółowy opis ukrytego indeksowania semantycznego .

heban1
źródło
8

W szczególności, podczas gdy LSA i LSI używają SVD do wykonywania swojej magii, istnieje obliczeniowa i koncepcyjnie prostsza metoda o nazwie HAL (Hyperspace Analogue to Language), która przesuwa się po tekście śledząc poprzednie i kolejne konteksty. Wektory są wydobywane z tych (często ważonych) macierzy współwystępowania, a określone słowa są wybierane do indeksowania przestrzeni semantycznej. Pod wieloma względami rozumiem, że działa tak samo dobrze, jak LSA, bez konieczności matematycznie / koncepcyjnie złożonego etapu SVD. Szczegóły patrz Lund i Burgess, 1996.

russellpierce
źródło
4
... podsumowując wcześniejsze prace Fincha i Chatera (1992, 1994), Schütze (1993) i innych. HAL, LSA i inne prace ze stanu techniki generują miarę podobieństwa słów, obliczając ich podobieństwo kontekstowe. (Jest to podobieństwo Shepharda do „drugiego rzędu”: podobieństwo „pierwszego rzędu” występuje, gdy słowo a występuje w pobliżu słowa b; podobieństwo „drugiego rzędu” polega na tym, że słowo a występuje w pobliżu tego samego rodzaju słów, co słowo b).
conjugateprior
3
Porównywanie i kontrastowanie: w przypadku LSA kontekstem jest kompletny dokument. Dla HAL i innych jest to okno tekstowe otaczające słowo docelowe. LSA mierzy odległość w liniowej podprzestrzeni wyodrębnionej za pomocą SVD / PCA, a druga zajmuje się odległościami w pierwotnej przestrzeni otaczających słów.
conjugateprior
6

NMF i SVD są algorytmami faktoryzacji macierzy. Wikipedia ma pewne istotne informacje na temat NMF .

AA=AA

Inni respondenci opisali LSI / LSA ...

Emre
źródło
powinna to być macierz kowariancji, prawda? nie macierz korelacji.
Rafael
Tak, chyba że najpierw wyśrodkujesz zmienne.
Emre
po normalizacji zmiennych staje się macierzą korelacji?
Rafael
Normalizacja koncentruje się na skalowaniu, więc jest inaczej.
Emre