Jaki jest pełny zakres znaków chińskich w Unicode?

95

U + 4E00..U + 9FFF jest częścią pełnego zestawu, ale nie wszystkich

o mój Boże
źródło
3
Podłączyłbym tutaj tylko artykuł z Wikipedii, ponieważ zakres bloków byłby od czasu do czasu aktualizowany, dlatego lepiej jest połączyć coś dynamicznie zmieniającego się ratger tgan, dając statyczną odpowiedź ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Odpowiedzi:

104

Może znajdziesz pełną listę za pośrednictwem CJK Unicode FAQ (która zawiera znaki „chiński, japoński i koreański”)

Dokument „ East Asian Script ” wspomina:

Bloki zawierające ideogramy Han

Znaki ideograficzne Han znajdują się w pięciu głównych blokach standardu Unicode, jak pokazano w tabeli 12-2

Tabela 12-2. Bloki zawierające ideogramy Han

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Uwaga: zakresy bloków mogą ewoluować w czasie: najnowszy jest w CJK Unified Ideographs .

Zobacz także Wikipedia:

VonC
źródło
Możesz również chcieć dołączyć U + AC00 - U + D7AF (sylaby Hangul).
Flimm
12
@Flimm: Hangul nie jest częścią chińskiego standardu; Hangul jest koreańczykiem. Koreański język nie używa Hanja ( „Chinese script”), ale rzadko i tylko dla niektórych tradycyjnych rzeczy (takich jak Last nazw, pomników, miejsc ...), które nie mogą być przepisywane w Hangul. OP zapytał konkretnie o język chiński, więc ratownik nie musiał uwzględniać języka Hangul. :-)
omninonsense
1
Lista wydaje się nie obejmować znaków interpunkcyjnych („。”).
Michał Woliński
1
@ MichałWoliński Zakres symboli i interpunkcji CJK to 3000-303F
Mariano
Dowiedziałem się, że rozszerzenie A CJK Unified Ideographs wynosi od 3400 do 4 dBf zamiast 3400 do 4 dBf.
Lerner Zhang
48

Unicode ma obecnie 74605 znaków CJK. Znaki CJK obejmują nie tylko znaki używane przez język chiński, ale także japoński Kanji, koreański Hanja i wietnamski Chu Nom . Niektóre znaki CJK nie są znakami chińskimi.

1) 20941 znaków z bloku CJK Unified Ideographs .

Punkty kodowe od U + 4E00 do U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 znaków z bloku CJKUI ext .

Punkty kodowe od U + 3400 do U + 4DB5 . Unicode 3.0 (1999).

3) 42711 postacie z bloku CJKUI Ext B .

Punkty kodowe U + 20000 do U + 2A6D6. Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 znaków z bloku CJKUI Ext C .

Punkty kodowe U + 2A700 do U + 2B734 . Unicode 5.2 (2009).

4) 222 postaci z bloku CJKUI Ext D .

Punkty kodowe od U + 2B740 do U + 2B81D . Unicode 6.0 (2010).

5) Blok CJKUI Ext E.

Wkrótce

Jeśli powyższe nie wystarczy, spójrz na znane problemy . Baw się dobrze =)

Pacerier
źródło
1
Cześć, czy możesz podać przykład ideogramu CJK (najlepiej z płaszczyzny podstawowej), który nie jest chińskim znakiem? Myślałem, że znaki z innych języków (japoński, koreański), które nie są również chińskimi znakami, pojawiają się w innym bloku (na przykład blok Hangul Jamo, w przypadku koreańskiego) ...
Adam Burley
Spróbuj spojrzeć na „Gukja”, „Kokuji” i „Chữ Nôm”. U + 4E44, 乄, to znak CJK dostępny tylko w języku japońskim.
Ṃųỻịgǻňạcểơửṩ
21

Dokładne zakresy znaków chińskich (z wyjątkiem rozszerzeń) to [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement to blok Unicode zawierający alternatywne, często pozycyjne formy rodników Kangxi. Są one używane jako nagłówki w indeksach słownikowych i innych zbiorach ideogramów CJK zorganizowanych radykalnie.

  1. [\u3190-\u319f]

Kanbun to blok Unicode zawierający znaki adnotacji używane w japońskich kopiach klasycznych tekstów chińskich w celu wskazania kolejności czytania.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A to blok Unicode zawierający rzadkie ideogramy Han.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs to blok Unicode zawierający najpopularniejsze ideogramy CJK używane we współczesnym języku chińskim i japońskim.

  1. [\uF900-\uFAAD]

CJK Compatibility Ideographs to blok Unicode utworzony, aby zawierać znaki Han, które zostały zakodowane w wielu lokalizacjach w innych ustalonych kodowaniach znaków, oprócz przypisań CJK Unified Ideographs, w celu zachowania pełnej zgodności między Unicode i tymi kodowaniami.

Szczegółowe informacje można znaleźć tutaj , a rozszerzenia znajdują się w innych odpowiedziach.

Lerner Zhang
źródło
Czy osoba, która odrzuciła tę odpowiedź, mogłaby podać powód?
Lerner Zhang
2
Nie głosowałem przeciw, ale co z rozszerzeniem B, C, D i E?
Suragch
@Suragch Te rozszerzenia zostały poprawnie podane w innych odpowiedziach, dlatego nie muszę ich przepisywać. Wyraźnie oddzieliłem tylko przedziały pomiędzy.
Lerner Zhang
1. zakres suplementu do rodników CJK to 2E80-2EFF 2. Rodniki Kangxi nie są znakami chińskimi, są to elementy graficzne chińskich znaków, są używane specjalnie do wyrażania rodników, np. ⼻ (U + 2F3B) i 彳 (U + 5F73 ), ⻜ (U + 2EDC) i 飞 (U + 98DE) 3. Jeśli myślisz, że kanbun to chińskie znaki, dlaczego nie Ideografy zgodności CJK? Dlaczego nie dołączyć listów i miesięcy CJK?
Voyager
@rambler Dzięki za radę. Myślę, że kiedy analizujemy postać Chinsesa, powinniśmy wziąć pod uwagę Kangxi Radicals i Kanbun. Ideogramy zgodności CJK są dobre, ale załączone litery CJK i miesiące są zbyt rzadkie i nie sądzę, abyśmy je rozważali.
Lerner Zhang
10

Unicode w wersji 11.0.0

W Unicode skrypty chińskie, japońskie i koreańskie (CJK) mają wspólne tło, zwane łącznie znakami CJK.

Zakresy te często zawierają nieprzypisane lub zarezerwowane punkty kodowe (takie jak U + 2E9A , U + 2EF4 - 2EFF),

chińskie znaki

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • W bloku CJK Unified Ideographs zauważyłem, że wiele odpowiedzi używa górnej granicy 9FCC, ale U + 9FCD (鿍) jest rzeczywiście chińskim char. Wszystkie znaki w tym bloku to znaki chińskie (używane również w języku japońskim lub koreańskim itp.).
  • Większość znaków w CJK Unified Ideograohs Ext (z wyjątkiem Ext F, tylko 17% w Ext F to znaki chińskie) to tradycyjne chińskie znaki, które są rzadko używane w Chinach.
  • 〇 to chiński znak zera, który jest nadal używany

Dlatego zakres wynosi

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Znaki CJK, ale nigdy nie używane w języku chińskim

Są to Common Han używane tylko w celu zapewnienia zgodności.

Jest prawie niemożliwe, aby pojawiły się w żadnej chińskiej książce, artykule, pismach itp.

wszystkie znaki mają tutaj jeden odpowiadający mu identyczny z glifem chiński znak. Na przykład 金 (U + F90A) i 金 (U + 91D1) są identyczne w Glifie.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

Symbole związane z CJK

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • Niektóre bloki, takie jak Hangul Compatibility Jamo, zostały porzucone z powodu braku związku z chińskim.
  • Kangxi Radicals nie jest chińskimi znakami, jest graficznym elementem chińskich znaków, jest używany specjalnie do wyrażania rodników, .eg ⼻ (U + 2F3B) i 彳 (U + 5F73), ⻜ (U + 2EDC) i 飞 (U + 98DE)

Inne popularne znaki interpunkcyjne pojawiają się w języku chińskim

Jest to szeroki zakres, niektóre znaki interpunkcyjne mogą nigdy nie być używane, niektóre znaki interpunkcyjne, takie jak ……”“są używane tak często w chińskim.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Istnieje również wiele symboli związanych z Chinami, takich jak symbole heksagramu Yijing lub Kanbun , ale i tak nie jest to temat. Piszę znaki inne niż chińskie w CJK, aby lepiej wyjaśnić, czym są chińskie znaki. Powyższe zakresy obejmują już prawie wszystkie znaki występujące w chińskim piśmie, z wyjątkiem matematyki i innych notacji specjalnych.

Uzupełniający

Symbole i znaki interpunkcyjne CJK

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Formy o połowie i pełnej szerokości

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Odnosić się

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (w języku chińskim zwróć uwagę na prawy pasek boczny)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (zwróć uwagę na dolną tabelę)
  3. http://www.unicode.org
Podróżnik
źródło
2

Bloki kodu Unicode, które podały inne odpowiedzi, z pewnością obejmują większość chińskich znaków Unicode, ale sprawdź też niektóre z tych innych bloków kodu.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Zobacz moją pełniejszą dyskusję tutaj . A ta strona jest wygodne do przeglądania Unicode.

Suragch
źródło
1

Podsumowując, wygląda na to, że to one:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Lance Pollard
źródło