Dobre książki o eksploracji tekstu?

11

Cześć. Chciałem wiedzieć, czy są jakieś dobre książki na temat eksploracji tekstu i klasyfikacji z niektórymi studiami przypadków ?. Jeśli nie, wystarczyłyby niektóre dokumenty / czasopisma dostępne publicznie. Jeśli zilustrują swoje przykłady R jeszcze lepiej. Nie szukam instrukcji krok po kroku, ale czegoś, co ilustruje zalety i wady różnych podejść do eksploracji tekstu do różnych klas problemów.

Dasman
źródło

Odpowiedzi:

5

Sprawdź http://lintool.github.com/MapReduceAl Algorytmy/MapReduce-book-final.pdf Intensywne przetwarzanie danych za pomocą MapReduce - ta książka jest dość akademicka, ale obejmuje szereg powszechnie stosowanych technik przetwarzania tekstu i sposoby ich sparaliżowania w przypadku dużego zbioru danych przy użyciu mapy zmniejsz.

www.rtexttools.com Jest to doskonały pakiet R, który pomaga zastosować szeroki zakres algorytmów klasyfikacji (w tym niektóre metody zespolone) do analizy tekstu. i

Ross Farrelly
źródło
4
Aby ta odpowiedź była samodzielna, czy mógłbyś podać krótkie podsumowanie każdego linku?
chl
4

Niedawno przeczytałem cztery książki z tego zakresu:

Feldman, R. i James Sanger, J. (2006). Podręcznik Text Mining: zaawansowane podejścia do analizy danych nieustrukturyzowanych. Cambridge University Press.

Ten koncentruje się na praktycznych przykładach, oprogramowaniu i stosowanym eksploracji tekstu. Daje wiele przykładów praktycznego wykorzystania eksploracji tekstu. Może to być interesujące, jeśli chcesz przeczytać o komercyjnych zastosowaniach narzędzi do eksploracji tekstu.

Srivastava, AN i Sahami, M. (2009). Text Mining: klasyfikacja, grupowanie i aplikacje. Chapman & Hall / CRC.

Jest to seria prac badawczych, które są wykorzystywane jako przykłady użycia różnych narzędzi do eksploracji tekstu. Jest raczej zbyt skoncentrowany jak na test wprowadzający.

Weiss, SM, Indurkhya, N., Zhang, T. and Damerau, F. (2005). Text Mining: prognostyczne metody analizy nieustrukturyzowanych informacji. Skoczek.

Bardzo wprowadzający tekst opisujący niektóre ogólne problemy.

Manning, C. (1999). Podstawy statystycznego przetwarzania języka naturalnego. MIT Naciśnij.

To najlepsza książka, którą już przeczytałem na ten temat. Jest dobrze napisane, jasne, wnika głębiej w teorię, ale w sposób przyjazny dla praktyki. Zaczyna się od ogólnego wprowadzenia, ale od przeglądu niektórych najczęściej używanych metod i algorytmów. Jeśli musiałbyś wybrać tylko jedną książkę, poleciłbym tę.

Możesz również łatwo znaleźć wiele książek na temat przetwarzania języka naturalnego i eksploracji tekstu, które koncentrują się na użyciu R ( biblioteka tm ) lub Python ( biblioteka nltk ).

Tim
źródło
2

To może nie być dokładnie to, czego szukasz, ale opanowanie wyrażeń regularnych przez Jeffreya Friedla jest doskonałym źródłem do nauki, jak używać wyrażeń regularnych do analizowania tekstu. Nie dyskutuje o technikach modelowania, ale uzbrojony w liczenia wynikające ze stosowania wyrażeń regularnych można zastosować szereg standardowych metod modelowania.

Charlie
źródło
2

Jedną książką, do której wracam wielokrotnie, jest Text Mining: Predictive Methods ... autorstwa Sholom Weiss. Ma wiele pomysłów na rozwiązywanie problemów, które uważam za przydatne, ponieważ czasami eksploracja tekstu polega na wypróbowywaniu różnych rzeczy - słownik globalny kontra lokalny, liczba funkcji, które należy zachować itp. Uważam tę książkę za dobry generator pomysłów. Ma także studia przypadków.

Wake2Sleep
źródło