W twoim doświadczeniu, które znaki Unicode, punkty kodowe, zakresy poza BMP (Basic Multilingual Plane) są do tej pory najpowszechniejsze? Są to te, które wymagają 4 bajtów w UTF-8 lub surogatów w UTF-16.
Spodziewałbym się, że odpowiedzią będą chińskie i japońskie znaki używane w nazwach, ale nie zawarte w najbardziej rozpowszechnionych wielobajtowych zestawach znaków CJK, ale w projekcie, nad którym pracuję najwięcej, w angielskim Wikisłowniku, odkryliśmy, że alfabet gotycki jest jak dotąd znacznie bardziej powszechne.
AKTUALIZACJA
Napisałem kilka narzędzi programowych do skanowania całych Wikipedii w poszukiwaniu znaków innych niż BMP i ze zdziwieniem stwierdziłem, że nawet w japońskiej Wikipedii alfabet gotycki jest najbardziej powszechny. Dotyczy to również chińskiej Wikipedii, ale zawierała również wiele chińskich znaków używanych do 50 lub 70 razy, w tym „𨭎”, „𠬠” i „𩷶”.
źródło
Odpowiedzi:
Emotikony są teraz zdecydowanie najpopularniejszymi znakami spoza BMP. 😂, znany również jako U + 1F602 FACE WITH TEARS OF JOY, jest najpopularniejszym w publicznym strumieniu Twittera. Występuje częściej niż tylda!
źródło
Świetne pytanie!
Odpowiedzią są litery matematyczne. W grudniu zeszłego roku zeskanowałem cały korpus PubMed Open Access i wymyśliłem te liczby dla postaci astralnych.
Pierwsza liczba na poniższych rysunkach to liczba kopii każdego z punktów kodowych, które znalazłem w całym korpusie. Najpierw jednak, aby dać wyobrażenie o częstotliwościach względnych, oto dziesięć najważniejszych punktów kodowych trans-ASCII w tym korpusie:
A oto teraz punkty kodowe trans-BMP, w kolejności malejącej częstotliwości:
I naprawdę chciałbym wiedzieć, co oni za pomocą U + 100002 robić. :(
Jeśli nie pojawiają się one w Twojej przeglądarce, zainstaluj czcionkę Symbola George'a Dourosa . Zawiera również wszystkie zabawne punkty kodowe Unicode 6.0.0.
źródło
Jak dla mnie, matematyczne symbole alfanumeryczne, które są używane do składu matematycznego z czcionkami OpenType, takimi jak Cambria Math.
źródło