Korzystanie z klastrowania w przetwarzaniu tekstu

11

Cześć, to moje pierwsze pytanie w stosie Data Science. Chcę stworzyć algorytm do klasyfikacji tekstu. Załóżmy, że mam duży zestaw tekstu i artykułów. Powiedzmy, że około 5000 zwykłych tekstów. Najpierw używam prostej funkcji do określenia częstotliwości wszystkich czterech i więcej słów znakowych. Następnie używam tego jako cechy każdej próbki treningowej. Teraz chcę, aby mój algorytm mógł grupować zestawy szkoleniowe zgodnie z ich funkcjami, czyli tutaj jest częstotliwość każdego słowa w artykule. (Należy zauważyć, że w tym przykładzie każdy artykuł miałby swoją unikalną cechę, ponieważ każdy artykuł ma inną cechę, na przykład artykuł ma 10 „wody i 23„ czystej ”, a inny ma 8„ polityki ”i 14„ dźwigni ”). Czy możesz zasugerować najlepszy możliwy algorytm grupowania dla tego przykładu?

Rashid
źródło

Odpowiedzi:

5

Nie wiem, czy kiedykolwiek czytałeś SenseCluster Teda Pedersena: http://senseclusters.sourceforge.net/ . Bardzo dobry papier do grupowania zmysłów.

Ponadto, analizując słowa, pomyśl, że „komputer”, „komputery”, „komputeryzacja” ... reprezentują jedną koncepcję, a więc tylko jedną cechę. Bardzo ważne dla poprawnej analizy.

Mówiąc o algorytmie klastrowania, możesz użyć hierarchicznego klastrowania . Na każdym etapie algo łączysz 2 najbardziej podobne teksty zgodnie z ich cechami (na przykład za pomocą miary odmienności, na przykład odległości euklidesowej). Dzięki takiemu współczynnikowi podobieństwa możesz znaleźć najlepszą liczbę klastrów, a tym samym najlepszą klaster dla swoich tekstów i artykułów.

Powodzenia :)

JC R.
źródło
6

Jeśli chcesz podążać swoją dotychczasową ścieżką, sugeruję znormalizowanie częstotliwości każdego terminu według jego popularności w całym korpusie, więc promowane są rzadkie, a zatem przewidujące słowa. Następnie użyj losowych rzutów, aby zmniejszyć wymiar tych bardzo długich wektorów do rozmiarów, aby algorytm grupowania działał lepiej (nie chcesz grupować w przestrzeniach o dużych wymiarach).

Istnieją jednak inne sposoby modelowania tematów. Przeczytaj ten samouczek, aby dowiedzieć się więcej.

Emre
źródło