W Javie 7 wyrażenie regularne Unicode jest obsługiwane za pomocą UNICODE_CHARACTER_CLASSflagi lub możliwe do osadzenia (?U). Zobacz stackoverflow.com/questions/4304928/…
Alastair McCormack
Odpowiedzi:
120
To, czego szukasz, to właściwości Unicode.
np. \p{L}to jakikolwiek list z dowolnego języka
Zatem wyrażeniem regularnym pasującym do takiego chińskiego słowa może być coś w rodzaju
\p{L}+
Istnieje wiele takich właściwości, aby uzyskać więcej informacji, zobacz regular-expressions.info
Aby dopasować słowa takie jak Da̱nx̱a̱laga̱litła̱n, czy musimy poinstruować dopasowującego wzorce, aby łączył znaki diakrytyczne?
Dave Jarvis
9
Aby dopasować poszczególne znaki, możesz po prostu dołączyć je do klasy znaków, jako literały lub za pomocą \u03FBskładni.
Oczywiście często nie można wymienić wszystkich dozwolonych znaków w językach ideograficznych. Aby wyrażenie regularne traktowało znaki Unicode zgodnie z ich typem lub blokiem kodu, obsługiwane są różne inne znaki specjalne zdefiniowane w tym miejscu . Spójrz na sekcję „Obsługa Unicode”, w szczególności odwołania do Characterklasy i samego standardu Unicode.
jak dopasować wiele znaków utf8 wprowadzonych przez przykład użytkownika 环保 部, ponieważ użytkownik będzie wprowadzał losową liczbę znaków
cometta
1
To tak jak dopasowanie wiele znaków łacińskich: [a-z]+lub [a-z]{3}lub nawet [a-z]{2,10}. Jedyną różnicą jest to, na co zezwalasz w klasie znaków, do której stosuje się kwantyfikator.
Kilian Foth
9
Aby zająć się obsługą NLS i uniknąć akceptowania angielskich znaków specjalnych, możemy użyć poniższego wzoru ...
jeśli masz dane UTF-8, będziesz musiał transkodować je do UTF-16 na wejściu, jeśli nie jest to jeszcze zrobione
Unicode to uniwersalny zestaw znaków, a UTF-8 może opisać to wszystko (w tym znaki sterujące, znaki interpunkcyjne, symbole, litery itp.). Będziesz musiał bardziej szczegółowo określić, co chcesz uwzględnić, a co wykluczyć. Wyrażenia regularne Java używają \p{category}składni do dopasowywania punktów kodowych według kategorii . Zobacz standardu Unicode na liście kategorii.
Jeśli chcesz zidentyfikować i oddzielić słowa w sekwencji ideogramów, musisz przyjrzeć się bardziej wyrafinowanemu interfejsowi API. Zacząłbym od BreakIteratortypu.
UNICODE_CHARACTER_CLASS
flagi lub możliwe do osadzenia(?U)
. Zobacz stackoverflow.com/questions/4304928/…Odpowiedzi:
To, czego szukasz, to właściwości Unicode.
np.
\p{L}
to jakikolwiek list z dowolnego językaZatem wyrażeniem regularnym pasującym do takiego chińskiego słowa może być coś w rodzaju
Istnieje wiele takich właściwości, aby uzyskać więcej informacji, zobacz regular-expressions.info
Inną opcją jest użycie modyfikatora
Pattern.UNICODE_CHARACTER_CLASS
W Javie 7 jest nowa właściwość,
Pattern.UNICODE_CHARACTER_CLASS
która włącza wersję Unicode predefiniowanych klas znaków Zobacz moją odpowiedź tutaj, aby uzyskać więcej szczegółów i linkówMógłbyś zrobić coś takiego
Pattern p = Pattern.compile("\\w+", Pattern.UNICODE_CHARACTER_CLASS);
i
\w
dopasuje wszystkie litery i cyfry z dowolnego języka (i oczywiście niektóre słowa łączące znaki, takie jak_
).źródło
Aby dopasować poszczególne znaki, możesz po prostu dołączyć je do klasy znaków, jako literały lub za pomocą
\u03FB
składni.Oczywiście często nie można wymienić wszystkich dozwolonych znaków w językach ideograficznych. Aby wyrażenie regularne traktowało znaki Unicode zgodnie z ich typem lub blokiem kodu, obsługiwane są różne inne znaki specjalne zdefiniowane w tym miejscu . Spójrz na sekcję „Obsługa Unicode”, w szczególności odwołania do
Character
klasy i samego standardu Unicode.źródło
[a-z]+
lub[a-z]{3}
lub nawet[a-z]{2,10}
. Jedyną różnicą jest to, na co zezwalasz w klasie znaków, do której stosuje się kwantyfikator.Aby zająć się obsługą NLS i uniknąć akceptowania angielskich znaków specjalnych, możemy użyć poniższego wzoru ...
[a-zA-Z0-9 \ u0080- \ u9fff] * +
Odniesienie do punktu kodowego UTF: http://www.utf8-chartable.de/unicode-utf8-table.pl
Fragment kodu:
String vowels = "అఆఇఈఉఊఋఌఎఏఐఒఓఔౠౡ"; String consonants = "కఖగఘఙచఛజఝఞటఠడఢణతథదధనపఫబభమయరఱలళవశషసహ"; String signsAndPunctuations = "కఁకంకఃకాకికీకుకూకృకౄకెకేకైకొకోకౌక్కౕకౖ"; String symbolsAndNumerals = "౦౧౨౩౪౫౬౭౮౯"; String engChinesStr = "ABC導字會"; Pattern ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU = Pattern .compile("[a-zA-Z0-9 \\u0c00-\\u0c7f]*+"); System.out.println(ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU.matcher(vowels) .matches()); Pattern ALPHANUMERIC_AND_SPACE_PATTERN_CHINESE = Pattern .compile("[a-zA-Z0-9 \\u4e00-\\u9fff]*+"); Pattern ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN = Pattern .compile("[a-zA-Z0-9 \\u0080-\\u9fff]*+"); System.out.println(ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN.matcher(engChinesStr) .matches());
źródło
char
typiechar
typ jest domyślnie UTF-16Unicode to uniwersalny zestaw znaków, a UTF-8 może opisać to wszystko (w tym znaki sterujące, znaki interpunkcyjne, symbole, litery itp.). Będziesz musiał bardziej szczegółowo określić, co chcesz uwzględnić, a co wykluczyć. Wyrażenia regularne Java używają
\p{category}
składni do dopasowywania punktów kodowych według kategorii . Zobacz standardu Unicode na liście kategorii.Jeśli chcesz zidentyfikować i oddzielić słowa w sekwencji ideogramów, musisz przyjrzeć się bardziej wyrafinowanemu interfejsowi API. Zacząłbym od
BreakIterator
typu.źródło