Pytania oznaczone «nlp»

Przetwarzanie języka naturalnego (NLP) to poddziedzina sztucznej inteligencji, która obejmuje przekształcanie lub wydobywanie przydatnych informacji z danych języka naturalnego. Metody obejmują uczenie maszynowe i podejście oparte na regułach.

172
Java Stanford NLP: część etykiet mowy?

Stanford NLP, demo'd tutaj , daje moc takiego: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. Co oznaczają tagi Część mowy? Nie mogę znaleźć oficjalnej listy. Czy to własny system Stanforda, czy też używają uniwersalnych tagów? (Co to jest JJna przykład?) Ponadto, gdy przeglądam...

138
Wykrywanie sylab w słowie

Muszę znaleźć dość skuteczny sposób wykrywania sylab w słowie. Na przykład, Niewidoczne -> in-vi-sib-le Istnieje kilka zasad sylabowania, których można użyć: V CV VC CVC CCV CCCV CVCC * gdzie V to samogłoska, a C to spółgłoska. Na przykład, Wymowa (5 Pro-nun-ci-a -ation;...

125
Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?

Dopiero zaczynam używać NLTK i nie do końca rozumiem, jak uzyskać listę słów z tekstu. Jeśli używam nltk.word_tokenize(), otrzymuję listę słów i znaków interpunkcyjnych. Zamiast tego potrzebuję tylko słów. Jak pozbyć się interpunkcji? Również word_tokenizenie działa z wieloma zdaniami: punkty są...

111
Jak mam wywodzić słowa lub lematyzować?

Wypróbowałem PorterStemmer i Snowball, ale oba nie działają na wszystkich słowach, brakuje niektórych bardzo popularnych. Moje słowa testowe to: „ koty biegają w społecznościach kaktusów kaktusów i kaktusów ” i obie mają mniej niż połowę racji. Zobacz też: Algorytm macierzysty, który tworzy...

109
Jak obliczyć precyzję, odtworzenie, dokładność i wynik f1 dla przypadku wieloklasowego za pomocą narzędzia Scikit Learn?

Pracuję nad problemem analizy nastrojów, dane wyglądają następująco: label instances 5 1190 4 838 3 239 1 204 2 127 Więc moje dane są niezrównoważone, ponieważ 1190 instancessą oznaczone 5. Do klasyfikacji używam SVC firmy scikit . Problem polega na tym, że nie wiem, jak zrównoważyć moje...

93
Jak prawidłowo poprzedzić słowo „a” i „an”?

Mam aplikację .NET, w której podając rzeczownik chcę, aby poprawnie poprzedzał to słowo „a” lub „an”. Jak bym to zrobił? Zanim pomyślisz, że odpowiedzią jest po prostu sprawdzenie, czy pierwsza litera jest samogłoską, rozważ wyrażenia takie jak: szczery błąd używany samochód...

93
Jak trenować Parser Stanforda z Genią Corpus?

Mam pewne problemy z utworzeniem nowego modelu dla Stanford Parser. Pobrałem również ostatnią wersję ze Stanford: http://nlp.stanford.edu/software/lex-parser.shtml A tutaj Genia Corpus w 2 formatach, xml i ptb (Penn Treebank). Standford Parser może trenować z plikami ptd; potem pobrałem...

83
Tworzenie nowego korpusu za pomocą NLTK

Wydawało mi się, że często odpowiedzią na mój tytuł jest przeczytanie dokumentacji, ale przejrzałem książkę NLTK, ale ona nie daje odpowiedzi. Jestem trochę nowy w Pythonie. Mam kilka .txtplików i chcę móc korzystać z funkcji korpusu, które NLTK zapewnia dla korpusu nltk_data. Próbowałem,...