Wiem, że w komputerach występują 4 rodzaje znaków:
- Zwykłe znaki (cyfry lub litery typowego języka).
- Znaki sterujące (znaki używane do wpływania na to, jak dokument jest analizowany przez robota lub program), takie jak Line FInish (LF) lub Carriage Return (CR).
- Znaki meta (dowolna postać reprezentująca coś innego niż ona sama).
Czy możemy powiedzieć, że znaki BOM są również znakami kontrolnymi, takimi jak LF lub CR?
characters
JohnDoea
źródło
źródło
Odpowiedzi:
Czy możemy powiedzieć, że znaki BOM są również znakami kontrolnymi, takimi jak LF lub CR?
Nie. Bardziej przypomina podpis:
Źródło FAQ - UTF-8, UTF-16, UTF-32 i BOM
W swoim pytaniu stwierdzasz:
To powyżej jest nieprawidłowe.
LF
to skrót od Line Feed not Line Finish.Kontrolne znaki nie mają nic wspólnego z analizą dokumentu:
Znak kontroli źródła
źródło
Przez BOM, zakładam, że masz na myśli punkt kodowy Znaka Zamówienia Unicode.
Wymyślasz własne definicje, więc zdefiniuj BOM jako dowolny typ.
Projektanci standardu Unicode mają własne definicje. Zobacz Standard Unicode , wersja 9.0.0, rozdział 3.4 Znaki i kodowanie . Definicja D10a definiuje „typ punktu kodowego” jako „siedem podstawowych klas punktów kodowych w standardzie: grafika, format, kontrola, użytek prywatny, surogat, znak nieoznaczony, zarezerwowany”. Te typy zostały szczegółowo wyjaśnione w rozdziale 23 Obszary specjalne i znaki formatu . Sekcja 23.8 Specjalne definiuje U + FEFF, „znak kolejności bajtów”, jako mający kodowy typ „Specjalny”.
Tak więc projektanci standardu Unicode mają listę 7 typów punktów kodowych, a znak kolejności bajtów jest typu „Specjalny”. Włącz to do swojej własnej definicji, jak chcesz.
źródło