Próbuję przeprowadzić klastrowanie na poziomie dokumentu. Skonstruowałem macierz częstotliwości termin-dokument i próbuję zgrupować te wektory o dużych wymiarach za pomocą k-średnich. Zamiast bezpośredniego grupowania, najpierw zastosowałem dekompozycję wektora osobliwego LSA (Latent Semantic Analysis) w celu uzyskania macierzy U, S, Vt, wybrałem odpowiedni próg za pomocą wykresu piargowego i zastosowałem grupowanie na zredukowanych macierzach (szczególnie Vt, ponieważ daje mi informacje o dokumencie koncepcyjnym), które wydawały się dawać dobre wyniki.
Słyszałem, jak niektórzy mówili, że SVD (rozkład pojedynczego wektora) jest grupowaniem (za pomocą miary podobieństwa cosinusowego itp.) I nie byłem pewien, czy mogę zastosować k-średnie na wyjściu SVD. Myślałem, że to logicznie poprawne, ponieważ SVD jest techniką redukcji wymiarów, daje mi mnóstwo nowych wektorów. Z drugiej strony, k-średnie weźmie liczbę klastrów jako dane wejściowe i podzieli te wektory na określoną liczbę klastrów. Czy ta procedura jest wadliwa lub czy istnieją sposoby jej poprawy? Jakieś sugestie?
Odpowiedzi:
Nie jest to bynajmniej pełna odpowiedź, pytanie, które powinieneś zadać brzmi: „jakie odległości są zachowane podczas zmniejszania wymiarów?”. Ponieważ algorytmy grupowania, takie jak K-średnie, działają tylko na odległościach, właściwą metryką odległości, którą należy zastosować (teoretycznie), jest metryka odległości, którą zachowuje redukcja wymiarowości. W ten sposób krok redukcji wymiarowości można postrzegać jako skrót obliczeniowy do grupowania danych w przestrzeni o niższych wymiarach. (również w celu uniknięcia lokalnych minimów itp.)
Jest tu wiele subtelności, których nie będę udawał, że rozumiem (odległości lokalne vs. odległości globalne, jak zniekształcają się odległości względne itp.), Ale myślę, że to właściwy kierunek, aby myśleć o tych sprawach teoretycznie.
źródło
W odpowiedzi na Twój tytuł „Kiedy łączymy redukcję wymiarowości z klastrowaniem?” zamiast pełnego pytania. Jeden możliwy powód jest oczywisty: kiedy chcemy zabezpieczyć wartości odstające od agaistów. K-oznacza algo, jeśli bez wskazania początkowych centrów, rozbiera k najbardziej rozbieżnych punktów w chmurze jako początkowe centra, a właściwie mogą to być wartości odstające. Wstępne działanie PCA neutralizuje wartości odstające, które leżą wzdłuż młodszych komponentów - poprzez rzutowanie ich na kilka starszych komponentów, które są zachowane w PCA.
źródło