Do tworzenia układu mamy nasz słynny tekst „Lorem ipsum”, aby sprawdzić, jak wygląda.
To, czego szukam, to zestaw plików zawierających tekst zakodowany za pomocą kilku różnych kodowań, których mogę użyć w moich testach JUnit, aby przetestować niektóre metody, które zajmują się kodowaniem znaków podczas czytania plików tekstowych.
Przykład:Posiadanie ISO 8859-1
zakodowanego pliku testowego i Windows-1252
zakodowanego pliku testowego. Windows-1252 musi wywołać różnice w regionie 80 16 - 9F 16 . Innymi słowy, musi zawierać co najmniej jeden znak z tego regionu, aby odróżnić go od ISO 8859-1.
Być może najlepszym zestawem plików testowych jest ten, w którym plik testowy dla każdego kodowania zawiera raz wszystkie swoje znaki. Ale może nie jestem tego świadomy - wszyscy lubimy to kodowanie, prawda? :-)
Czy istnieje taki zestaw plików testowych do rozwiązywania problemów z kodowaniem znaków?
źródło
Odpowiedzi:
A może spróbujesz użyć plików pakietu testów ICU ? Nie wiem, czy są one tym, czego potrzebujesz do testu, ale wydaje się, że mają całkiem kompletne pliki mapowania z / do UTF przynajmniej: Link do repozytorium plików testowych ICU
źródło
Artykuł Wikipedii na temat znaków diakrytycznych jest dość obszerny, niestety musisz ręcznie wyodrębnić te znaki. Mogą również istnieć pewne mnemoniki dla każdego języka. Na przykład w języku polskim używamy:
który zawiera wszystkie 9 polskich znaków diakrytycznych w jednym poprawnym zdaniu. Kolejną przydatną wskazówką przy wyszukiwaniu są pangramy : zdania zawierające przynajmniej raz każdą literę alfabetu :
Lista pangramów zawiera wyczerpujące podsumowanie. Każdy, kto chce zawrzeć to w prostym:
public interface NationalCharacters { String spanish(); String russian(); //... }
biblioteka?
źródło
Nie znam żadnych pełnych dokumentów tekstowych, ale jeśli możesz zacząć od prostego przeglądu wszystkich zestawów znaków, jest kilka plików dostępnych na serwerze ftp.unicode.org
Oto na przykład WINDOWS-1252. Pierwsza kolumna zawiera wartość znaku szesnastkowego, a druga wartość Unicode.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
źródło
Cóż, użyłem narzędzia online do stworzenia moich zestawów znaków tekstowych z Lorem Ipsum. Wierzę, że to może ci pomóc. Nie mam takiego, który ma wszystkie różne zestawy znaków na jednej stronie.
http://generator.lorem-ipsum.info /
źródło