Badam różne techniki stosowane w grupowaniu dokumentów i chciałbym wyjaśnić pewne wątpliwości dotyczące PCA (analiza głównego składnika) i LSA (utajona analiza semantyczna).
Po pierwsze - jakie są między nimi różnice? Wiem, że w PCA rozkład SVD jest stosowany do macierzy kowariancji terminów, podczas gdy w LSA jest to matryca termin-dokument. Czy jest coś jeszcze?
Po drugie - jaka jest ich rola w procedurze klastrowania dokumentów? Z tego, co przeczytałem do tej pory, wywnioskowałem, że ich celem jest redukcja wymiarów, redukcja szumów i włączenie relacji między terminami do przedstawienia. Po wykonaniu PCA lub LSA, tradycyjne algorytmy, takie jak k-średnie lub metody aglomeracyjne, są stosowane w przestrzeni o zmniejszonym czasie i stosowane są typowe miary podobieństwa, takie jak odległość cosinus. Proszę popraw mnie jeżeli się mylę.
Po trzecie - czy ma znaczenie, czy wektory termiczne TF / IDF są znormalizowane przed zastosowaniem PCA / LSA, czy nie? I czy po tym powinny być ponownie znormalizowane?
Po czwarte - powiedzmy, że wykonałem pewne grupowanie w obszarze przestrzeni zmniejszonej przez LSA / PCA. Jak teraz przypisać etykiety do klastrów wyników? Ponieważ wymiary nie odpowiadają rzeczywistym słowom, jest to raczej trudny problem. Jedyny pomysł, jaki przychodzi mi do głowy, to obliczanie centroidów dla każdego skupienia przy użyciu oryginalnych wektorów terminów i wybieranie terminów o najwyższej wadze, ale nie brzmi to zbyt wydajnie. Czy są jakieś konkretne rozwiązania tego problemu? Nic nie znalazłem.
Będę bardzo wdzięczny za wyjaśnienie tych kwestii.
źródło
Odpowiedzi:
źródło
LSI jest obliczany na matrycy termin-dokument, podczas gdy PCA jest obliczany na macierzy kowariancji, co oznacza, że LSI próbuje znaleźć najlepszą podprzestrzeń liniową do opisu zestawu danych, podczas gdy PCA próbuje znaleźć najlepszą równoległą podprzestrzeń liniową.
źródło
Tylko jakieś rozszerzenie odpowiedzi Russellpierce.
1) Zasadniczo LSA to PCA stosowane do danych tekstowych. Gdy używasz SVD dla PCA, nie jest on stosowany do macierzy kowariancji, ale bezpośrednio do macierzy cech-próbek, która jest tylko matrycą dokumentu-dokumentu w LSA. Różnica polega na tym, że PCA często wymaga cechowej normalizacji danych, podczas gdy LSA nie.
Jest miły wykład Andrew Ng, który ilustruje związki między PCA i LSA.
2/3) Ponieważ dane dokumentu mają różną długość, zwykle pomocne jest znormalizowanie wielkości. W tym przypadku należy zastosować normalizację przykładową, a nie normalizację cechową. W praktyce pomocna była normalizacja zarówno przed, jak i po LSI.
Jeśli metryka algorytmu grupowania nie zależy od wielkości (powiedzmy odległość kosinusowa), ostatni etap normalizacji można pominąć.
4) Uważa, że generalnie jest to trudny problem z uzyskaniem znaczących etykiet od klastrów. Niektóre osoby wydobywają terminy / frazy, które maksymalizują różnicę w dystrybucji między ciałem a klastrem. Innym sposobem jest użycie częściowo nadzorowanego grupowania z predefiniowanymi etykietami.
źródło