Pytania oznaczone «tokenize»

Tokenizacja to czynność polegająca na dzieleniu ciągu znaków na dyskretne elementy zwane tokenami.

155
Scanner vs. StringTokenizer vs. String.Split

Właśnie dowiedziałem się o klasie Scanner w Javie i teraz zastanawiam się, jak porównuje / konkuruje z StringTokenizer i String.Split. Wiem, że StringTokenizer i String.Split działają tylko na ciągach znaków, więc dlaczego miałbym chcieć używać Scanner for a String? Czy Scanner ma być po prostu...

151
Szukasz jasnej definicji tego, czym są „tokenizer”, „parser” i „leksery” oraz w jaki sposób są one ze sobą powiązane i używane?

Szukam jasnej definicji tego, czym są „tokenizer”, „parser” i „lexer” i jak są one ze sobą powiązane (np. Czy parser używa tokenizera lub odwrotnie)? Muszę utworzyć program, który przejdzie przez pliki źródłowe c / h, aby wyodrębnić deklarację danych i definicje. Szukałem przykładów i mogę znaleźć...

125
Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?

Dopiero zaczynam używać NLTK i nie do końca rozumiem, jak uzyskać listę słów z tekstu. Jeśli używam nltk.word_tokenize(), otrzymuję listę słów i znaków interpunkcyjnych. Zamiast tego potrzebuję tylko słów. Jak pozbyć się interpunkcji? Również word_tokenizenie działa z wieloma zdaniami: punkty są...

104
Dzielenie łańcucha na wiele wierszy w Oracle

Wiem, że do pewnego stopnia odpowiedziano na to za pomocą PHP i MYSQL, ale zastanawiałem się, czy ktoś mógłby mnie nauczyć najprostszego podejścia do dzielenia ciągu (rozdzielanego przecinkami) na wiele wierszy w Oracle 10g (najlepiej) i 11g. Tabela przedstawia się następująco: Name | Project |...