LSA vs. PCA (klastrowanie dokumentów)

Badam różne techniki stosowane w grupowaniu dokumentów i chciałbym wyjaśnić pewne wątpliwości dotyczące PCA (analiza głównego składnika) i LSA (utajona analiza semantyczna).

Po pierwsze - jakie są między nimi różnice? Wiem, że w PCA rozkład SVD jest stosowany do macierzy kowariancji terminów, podczas gdy w LSA jest to matryca termin-dokument. Czy jest coś jeszcze?

Po drugie - jaka jest ich rola w procedurze klastrowania dokumentów? Z tego, co przeczytałem do tej pory, wywnioskowałem, że ich celem jest redukcja wymiarów, redukcja szumów i włączenie relacji między terminami do przedstawienia. Po wykonaniu PCA lub LSA, tradycyjne algorytmy, takie jak k-średnie lub metody aglomeracyjne, są stosowane w przestrzeni o zmniejszonym czasie i stosowane są typowe miary podobieństwa, takie jak odległość cosinus. Proszę popraw mnie jeżeli się mylę.

Po trzecie - czy ma znaczenie, czy wektory termiczne TF / IDF są znormalizowane przed zastosowaniem PCA / LSA, czy nie? I czy po tym powinny być ponownie znormalizowane?

Po czwarte - powiedzmy, że wykonałem pewne grupowanie w obszarze przestrzeni zmniejszonej przez LSA / PCA. Jak teraz przypisać etykiety do klastrów wyników? Ponieważ wymiary nie odpowiadają rzeczywistym słowom, jest to raczej trudny problem. Jedyny pomysł, jaki przychodzi mi do głowy, to obliczanie centroidów dla każdego skupienia przy użyciu oryginalnych wektorów terminów i wybieranie terminów o najwyższej wadze, ale nie brzmi to zbyt wydajnie. Czy są jakieś konkretne rozwiązania tego problemu? Nic nie znalazłem.

Będę bardzo wdzięczny za wyjaśnienie tych kwestii.

clustering pca data-mining svd lsa użytkownik1315305
źródło

LSA lub LSI: taki sam czy inny? Jeśli masz na myśli LSI = ukryte indeksowanie semantyczne, popraw i standaryzuj.

Nick Cox,

Czy LSI i LSA to dwie różne rzeczy? Myślałem, że są równoważne.

user1315305

Nie mam pojęcia; chodzi o (proszę) użycie jednego terminu dla jednej rzeczy, a nie dwóch; w przeciwnym razie twoje pytanie będzie jeszcze trudniejsze do zrozumienia.

Nick Cox,

Ok, poprawiłem to już raz. Dziękujemy za zwrócenie uwagi :)

user1315305

Wikipedia sprawia wrażenie, że LSA = LSI. Ale LSI to analiza korespondencji (CA). CA to termin analizy statystycznej, podobnie jak PCA, natomiast LSI / LSA to termin eksploracji tekstu. Wyszukaj artykuły porównujące PCA i CA.

ttnphns

Odpowiedzi:

PCA i LSA to analizy wykorzystujące SVD. PCA jest ogólną klasą analiz i może być zasadniczo stosowana do wyliczanych korpusów tekstowych na wiele sposobów. W przeciwieństwie do tego LSA jest bardzo jasno określonym sposobem analizy i redukcji tekstu. Oba wykorzystują ideę, że znaczenie można wyodrębnić z kontekstu. W LSA kontekst jest podany w liczbach za pomocą matrycy termin-dokument. W PCA proponowany kontekst jest podany w liczbach poprzez określenie terminu macierz kowariancji (szczegóły dotyczące generowania prawdopodobnie mogą powiedzieć ci znacznie więcej na temat związku między twoim PCA a LSA). Możesz poszukać tutaj więcej szczegółów.
Jesteś tu w zasadzie na dobrej drodze. Dokładne powody ich wykorzystania będą zależeć od kontekstu i celów osoby bawiącej się danymi.
Odpowiedź prawdopodobnie zależeć będzie od implementacji używanej procedury.
Ostrożnie iz wielką sztuką. Większość uważa wymiary tych modeli semantycznych za niemożliwe do interpretacji. Zauważ, że prawie na pewno spodziewasz się więcej niż jednego podstawowego wymiaru. Gdy w analizie czynnikowej występuje więcej niż jeden wymiar, obracamy rozwiązanie czynnikowe, aby uzyskać czynniki interpretowalne. Jednak z jakiegoś powodu zwykle nie robi się tego w przypadku tych modeli. Twoje podejście brzmi jak zasadowy sposób na rozpoczęcie sztuki ... chociaż byłbym mniej niż pewien, że skalowanie między wymiarami jest wystarczająco podobne, aby zaufać rozwiązaniu analizy skupień. Jeśli chcesz pobawić się znaczeniem, możesz również rozważyć prostsze podejście, w którym wektory mają bezpośredni związek z określonymi słowami, np . HAL .

russellpierce
źródło

LSI jest obliczany na matrycy termin-dokument, podczas gdy PCA jest obliczany na macierzy kowariancji, co oznacza, że LSI próbuje znaleźć najlepszą podprzestrzeń liniową do opisu zestawu danych, podczas gdy PCA próbuje znaleźć najlepszą równoległą podprzestrzeń liniową.

Gaurav Singh
źródło

Nick, czy możesz podać więcej szczegółów na temat różnicy między najlepszą podprzestrzenią liniową a najlepszą równoległą podprzestrzenią liniową? Czy ma to związek z ortogonalnością? Czy mam zadać je jako nowe pytanie?

russellpierce

Najlepszy w jakim sensie? Minimalizowanie normy Frobiniusa błędu rekonstrukcji? W takim razie dla mnie brzmi to jak PCA.

Andrew M,

Tylko jakieś rozszerzenie odpowiedzi Russellpierce.

1) Zasadniczo LSA to PCA stosowane do danych tekstowych. Gdy używasz SVD dla PCA, nie jest on stosowany do macierzy kowariancji, ale bezpośrednio do macierzy cech-próbek, która jest tylko matrycą dokumentu-dokumentu w LSA. Różnica polega na tym, że PCA często wymaga cechowej normalizacji danych, podczas gdy LSA nie.

Jest miły wykład Andrew Ng, który ilustruje związki między PCA i LSA.

2/3) Ponieważ dane dokumentu mają różną długość, zwykle pomocne jest znormalizowanie wielkości. W tym przypadku należy zastosować normalizację przykładową, a nie normalizację cechową. W praktyce pomocna była normalizacja zarówno przed, jak i po LSI.

Jeśli metryka algorytmu grupowania nie zależy od wielkości (powiedzmy odległość kosinusowa), ostatni etap normalizacji można pominąć.

4) Uważa, że generalnie jest to trudny problem z uzyskaniem znaczących etykiet od klastrów. Niektóre osoby wydobywają terminy / frazy, które maksymalizują różnicę w dystrybucji między ciałem a klastrem. Innym sposobem jest użycie częściowo nadzorowanego grupowania z predefiniowanymi etykietami.

dontloo
źródło