Przykłady eksploracji tekstu za pomocą R (pakiet tm)

14

Spędziłem trzy dni, bawiąc się tmpo przeczytaniu dokumentu roboczego przez znajomego, w którym zbadał korpus tekstowy za pomocą UCINET, pokazując chmury tekstowe, dwumodowe wykresy sieciowe i rozkład pojedynczej wartości (z grafiką, przy użyciu Staty). Wystąpiło wiele problemów: w systemie Mac OS X występują problemy z Javą za bibliotekami takimi jak Snowball (tworzenie) lub Rgraphviz (wykresy).

Może ktoś punkt się nie pakiety - Mam spojrzał na tm, wordfishi wordscores, i wiedzą o NLTK - ale badania, jeśli jest to możliwe z kodem, na danych tekstowych, które z powodzeniem używa tmlub coś innego do analizy danych takich debat parlamentarnych lub dokumentów prawnych? Nie mogę znaleźć dużo na ten temat, a jeszcze mniej kodu do nauki.

Mój własny projekt to dwumiesięczna debata parlamentarna z tymi zmiennymi zawartymi w pliku CSV: sesja parlamentarna, mówca, grupa parlamentarna, tekst ustnej interwencji. Szukam rozbieżności między mówcami, a zwłaszcza między grupami parlamentarnymi, w stosowaniu rzadkich i mniej rzadkich terminów, np. „Rozmowa w sprawie bezpieczeństwa” przeciwko rozmowie o „wolnościach obywatelskich”.

Ks.
źródło

Odpowiedzi:

7

Rozprawa doktorska autora tm, Ingo Feinerer z Austrii, napisana jest w języku angielskim. Rozdziały 7-10 tego dokumentu zawierają aplikacje pakietu tm o coraz większej złożoności.

http://epub.wu.ac.at/1923/

Rozdział 7 przedstawia zastosowanie tm poprzez analizę listy mailingowej R-devel 2006. Rozdział 8 pokazuje zastosowanie eksploracji tekstu dla biznesu w elektronicznym handlu konsumenckim. Rozdział 9 dotyczy wniosku TM do zbadania jurysdykcji naczelnego sądu administracyjnego w zakresie opłat i podatków. [...] . Rozdział 10 pokazuje aplikację do atrybucji stylometrii i autorstwa w zestawie danych Wizard of Oz.

Przeczytaj całą dokument od deski do deski. Należy jednak pamiętać, że dokument został napisany w 2008 roku i od tego czasu wprowadzono kilka zmian API, na przykład praca doktorska wspomina o funkcji tmMap(), której nazwa została zmieniona tm_map(). Tak więc przykłady kodu nie będą działać tak, jak są, nie można użyć wycinania i wklejania, aby je wypróbować.

Możesz także przejść do

http://tm.r-forge.r-project.org/users.html

„Próbując poinformować nowych użytkowników o istniejących aplikacjach TM, ta strona ma na celu dostarczenie (niekompletnej alfabetycznej) listy użytkowników TM i ich komentarzy. Znani użytkownicy to od instytutów badawczych przez firmy po osoby prywatne.”

i wyszukaj na tej stronie frazę „napisał artykuł”, a znajdziesz wiele linków. Przeczytałem tylko jeden artykuł: „automatyczne wykrywanie tematu w tekstach piosenek”. Całkiem interesujące i zabawne.

knb
źródło
Myślę, że rozprawa Feinerera jest dokumentem, który jak dotąd najbardziej mi pomógł. Dzięki!
ks.
5

Dobrym miejscem na początek może być lista publikacji na stronie internetowej tm, takich jak ta:

Lista referencji na końcu każdej z tych publikacji zawiera udane aplikacje tm, a tego właśnie szukasz. Jest ich wiele - szczególnie, jeśli postępujesz zgodnie z referencjami referencji.

Na przykład oto jeden, który może mieć znaczenie:

Feinerer I, Hornik K (2007). \ Text Mining jurysdykcji naczelnego sądu administracyjnego. ”W C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (red.), \ Analiza danych, uczenie maszynowe i aplikacje (materiały 31. dorocznej konferencji Gesellschaft f ur Klassikation eV, 7 marca {9, 2007, Fryburg, Niemcy), „Studia w zakresie klasyfikacji, analizy danych i organizacji wiedzy. Springer-Verlag.

Powodzenia.

Mężczyzna
źródło
Dzięki za referencje. Poziom szczegółowości jest jednak niewystarczający w tych publikacjach - musiałem przeczytać z rozprawy Feinerera, aby uzyskać wystarczającą ilość szczegółów na temat tego, jak operować tmpo mojej stronie. Mimo wszystko bardzo dziękuję :)
ks.