Jestem programistą bez tła statystycznego i obecnie szukam różnych metod klasyfikacji dla dużej liczby różnych dokumentów, które chcę zaklasyfikować do wstępnie zdefiniowanych kategorii. Czytałem o kNN, SVM i NN. Mam jednak problemy z rozpoczęciem pracy. Jakie zasoby polecasz? Znam rachunek jednej zmiennej i rachunek wielu zmiennych całkiem dobrze, więc moja matematyka powinna być wystarczająco silna. Posiadam również książkę Bishopa na temat sieci neuronowych, ale okazała się nieco gęsta jako wprowadzenie.
32
Świetny tekst wprowadzający obejmujący wspomniane tematy to Wprowadzenie do wyszukiwania informacji , który jest dostępny online w pełnym tekście za darmo.
źródło
Sieć neuronowa może być zbyt wolna w przypadku dużej liczby dokumentów (również teraz jest to dość przestarzałe).
Możesz także sprawdzić Losowy Las wśród klasyfikatorów; jest dość szybki, ładnie się skaluje i nie wymaga skomplikowanego strojenia.
źródło
Jeśli pochodzisz ze strony programistycznej, jedną z opcji jest użycie Natural Language Toolkit (NLTK) dla Pythona. Istnieje książka O'Reilly, dostępna bezpłatnie , która może być mniej gęstym i praktycznym wprowadzeniem do budowania klasyfikatorów dokumentów między innymi.
Jeśli jesteś zainteresowany pogłębianiem statystyk, książka Rogera Levy'ego w toku, Modele probabilistyczne w nauce języka , może być niezła do przejrzenia. Jest napisany dla studentów cogsci / compsci grad, rozpoczynających od statystycznych technik NLP.
źródło
Po pierwsze mogę polecić książkę Podstawy statystycznego przetwarzania języka naturalnego autorstwa Manninga i Schütze.
Metodami, których bym użył, są rozkłady częstotliwości słowa i modele języka ngram. Pierwszy działa bardzo dobrze, gdy chcesz sklasyfikować temat, a twoje tematy są szczegółowe i fachowe (mają słowa kluczowe). Modelowanie Ngram jest najlepszym sposobem, gdy chcesz sklasyfikować style pisania itp.
źródło
Naiwny Bayes jest zwykle punktem wyjścia do klasyfikacji tekstu, oto artykuł dr Dobbsa na temat jego implementacji. Często jest to także punkt końcowy klasyfikacji tekstu, ponieważ jest tak wydajny i dobrze zrównoleglony, że wykorzystują go SpamAssassin i POPFile.
źródło