Pytania oznaczone «nltk»

Natural Language Toolkit to biblioteka Pythona do lingwistyki komputerowej.

142
n-gramów w Pythonie, cztery, pięć, sześć gramów?

Szukam sposobu na podzielenie tekstu na n-gramów. Normalnie zrobiłbym coś takiego: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Zdaję sobie sprawę, że nltk oferuje tylko bigramy i trygramy, ale...

125
Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?

Dopiero zaczynam używać NLTK i nie do końca rozumiem, jak uzyskać listę słów z tekstu. Jeśli używam nltk.word_tokenize(), otrzymuję listę słów i znaków interpunkcyjnych. Zamiast tego potrzebuję tylko słów. Jak pozbyć się interpunkcji? Również word_tokenizenie działa z wieloma zdaniami: punkty są...

110
Jak usunąć słowa stop za pomocą nltk lub python

Mam więc zbiór danych, z którego chciałbym usunąć słowa pomijane stopwords.words('english') Walczę, jak użyć tego w moim kodzie, aby po prostu usunąć te słowa. Mam już listę słów z tego zbioru danych, część, z którą się zmagam, polega na porównaniu z tą listą i usuwaniu słów pomijanych. Każda...

101
problem z pip instalacją prawie każdej biblioteki

Mam problem z użyciem pip do zainstalowania prawie wszystkiego. Jestem nowy w kodowaniu, więc pomyślałem, że może to jest coś, co robię źle i zrezygnowałem z easy_install, aby uzyskać większość tego, co potrzebowałem, co ogólnie działa. Jednak teraz próbuję pobrać bibliotekę nltk i żadna z nich nie...

83
Tworzenie nowego korpusu za pomocą NLTK

Wydawało mi się, że często odpowiedzią na mój tytuł jest przeczytanie dokumentacji, ale przejrzałem książkę NLTK, ale ona nie daje odpowiedzi. Jestem trochę nowy w Pythonie. Mam kilka .txtplików i chcę móc korzystać z funkcji korpusu, które NLTK zapewnia dla korpusu nltk_data. Próbowałem,...