W edytorze Sakura możesz mieć .txt
plik z kodowaniem UTF-8, który zawiera 2 znaki, które nie są dostępne w zestawie znaków EUC.
Kiedy zapisałem .txt
z UTF-8 do EUC w edytorze, wszystko działa dobrze i wszystkie znaki są wyświetlane poprawnie.
Czy ktoś wie, jakiej logiki używa redaktor, aby to osiągnąć?
c++
character-encoding
charset
jonsca
źródło
źródło
Odpowiedzi:
Jeśli widzisz dwa znaki
ÿþ
(szesnastkoweFF FE
) lubþÿ
(szesnastkoweFE FF
) na początku pierwszego wiersza , plik jest kodowany w UTF-16, a nie w UTF-8. Znaki te są wówczas w rzeczywistości „ znakiem kolejności bajtów ” (BOM), który redaktor powinien interpretować, a nie pokazywać.(Na wypadek, gdybyś zobaczył trzy znaki

, będące szesnastkoweEF BB BF
, na początku pierwszego wiersza, to jest BOM dla UTF-8. Jeśli widzisz inne znaki, lub nie na początku pierwszego wiersza, czy możesz edytować pytanie, aby dodać przykład?)źródło