Pytania oznaczone «unicode»

440
Najlepszy sposób na odwrócenie łańcucha

Właśnie musiałem napisać funkcję odwrotną do napisów w C # 2.0 (tj. LINQ niedostępny) i wymyśliłem to: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return...

395
Co to jest Unicode, UTF-8, UTF-16?

Jaka jest podstawa Unicode i dlaczego potrzeba UTF-8 lub UTF-16? Sprawdziłem to w Google i szukałem tutaj, ale nie jest to dla mnie jasne. W VSS podczas porównywania plików czasami pojawia się komunikat informujący, że oba pliki mają różne UTF. Dlaczego miałoby tak być? Proszę wyjaśnić w prosty...

360
Dlaczego 2+ 40 równa się 42?

Byłem zaskoczony, gdy kolega pokazał mi tę linię JavaScript z ostrzeżeniem 42. alert(2+ 40); Uruchom fragment koduUkryj wynikiRozwiń fragment kodu Szybko okazuje się, że to, co wygląda jak znak minus, jest w rzeczywistości tajemnym znakiem Unicode o wyraźnie innej semantyce. To mnie...

359
Jak mogę grepować dla wszystkich znaków spoza ASCII?

Mam kilka bardzo dużych plików XML i próbuję znaleźć wiersze zawierające znaki spoza ASCII. Próbowałem następujące: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Ale to zwraca każdą linię w pliku, niezależnie od tego, czy linia zawiera znak z określonego zakresu. Czy mam niewłaściwą składnię, czy robię...

348
Jak znaleźć długość ciągu w R

Jak znaleźć długość ciągu (liczbę znaków w ciągu) bez dzielenia go na R? Wiem, jak znaleźć długość listy, ale nie łańcucha. A co z ciągami znaków Unicode? Jak znaleźć długość (w bajtach) i liczbę znaków (runy, symbole) w ciągu znaków Unicode? Powiązane pytanie: Jak znaleźć „prawdziwą” liczbę...

257
UnicodeDecodeError, niepoprawny bajt kontynuacji

Dlaczego poniższy element nie działa? i dlaczego to się udaje dzięki kodekowi „latin-1”? o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving v = o.decode("utf-8") prowadzi do: Traceback (most recent call last): File "<stdin>", line 1, in...

244
Zamień znaki spoza ASCII na pojedynczą spację

Muszę zastąpić wszystkie znaki spoza ASCII (\ x00- \ x7F) spacją. Dziwi mnie, że w Pythonie nie jest to łatwe, chyba że czegoś mi brakuje. Następująca funkcja po prostu usuwa wszystkie znaki spoza ASCII: def remove_non_ascii_1(text): return ''.join(i for i in text if ord(i)<128) I ten...

241
Python: Usunięcie \ xa0 z ciągu?

Obecnie używam Beautiful Soup do parsowania pliku HTML i wywoływania get_text(), ale wygląda na to, że mam dużo \ xa0 znaków reprezentujących spacje. Czy istnieje skuteczny sposób na usunięcie ich wszystkich w Pythonie 2.7 i zamianę ich w spacje? Wydaje mi się, że bardziej ogólne pytanie brzmi: czy...

239
Ile bajtów zajmuje jeden znak Unicode?

Jestem trochę zdezorientowany co do kodowania. O ile wiem, stare znaki ASCII zajmowały jeden bajt na znak. Ile bajtów wymaga znak Unicode? Zakładam, że jeden znak Unicode może zawierać każdy możliwy znak z dowolnego języka - czy mam rację? Ile bajtów potrzebuje na znak? A co oznaczają UTF-7,...