Pytania oznaczone «unicode»

Unicode ma być uniwersalnym zestawem znaków do opisu wszystkich znaków wymaganych w tekście pisanym, obejmującym wszystkie systemy pisma, symbole techniczne i znaki interpunkcyjne.

432
Czy UTF-16 należy uważać za szkodliwy?

Zadam pytanie, które jest prawdopodobnie dość kontrowersyjnym pytaniem: „Czy jedno z najpopularniejszych kodowań, UTF-16, należy uznać za szkodliwe?” Dlaczego zadaję to pytanie? Ilu programistów jest świadomych faktu, że UTF-16 jest tak naprawdę kodowaniem o zmiennej długości? Rozumiem przez to,...

41
Dlaczego istnieje wiele kodowań Unicode?

Myślałem, że Unicode został zaprojektowany, aby obejść cały problem posiadania wielu różnych kodowań z powodu małej przestrzeni adresowej (8 bitów) w większości wcześniejszych prób (ASCII itp.). Dlaczego więc jest tyle kodowań Unicode? Nawet wiele wersji (zasadniczo) tej samej, takich jak UTF-8,...

35
Licencja Unicode

Warunki korzystania z Unicode stanowią, że każde oprogramowanie korzystające z ich plików danych (lub ich modyfikacji) powinno zawierać odniesienia do licencji Unicode. Wydaje mi się, że większość bibliotek Unicode ma funkcje sprawdzania, czy znak jest cyfrą, literą, symbolem itp., A zatem będzie...

19
Dlaczego w Unicode jest tyle spacji i podziałów wierszy?

Unicode ma może 50 spacji \ u0009 \ u000A- \ u000D \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000] [\ u0009 \ u000A- \ u000D \ u0020 \ u0085 \ u00A0 \ u1685 u180E \ u2000- \ u200A \ u2029 \ u202F \ u205F \ u3000 i 6 podziałów linii nie tylko...

14
Wartość wartownika Unicode, której mogę użyć?

Wybieram format pliku i chcę to zrobić poprawnie. Ponieważ jest to format binarny, pierwszy bajt (lub bajty) pliku nie powinien tworzyć prawidłowych znaków tekstowych (tak jak w nagłówku 1 pliku PNG ). Dzięki temu narzędzia, które nie rozpoznają formatu, mogą zobaczyć, że nie jest to plik tekstowy,...

12
Wydajna implementacja Trie dla ciągów Unicode

Szukałem wydajnej implementacji String trie. Przeważnie znalazłem taki kod: Referencyjna implementacja w Javie (na wikipedię) Nie podobają mi się te wdrożenia z dwóch powodów: Obsługują tylko 256 znaków ASCII. Muszę obejmować takie rzeczy jak cyrylica. Są wyjątkowo nieefektywne pod względem...