Mam partię plików tekstowych o nieokreślonym kodowaniu, które muszę wyczyścić z nietypowych znaków. Użyłem biblioteki czad Pythona, aby ustalić, że 87% jest zgodne z ISO-8859-2, ale nadal zawierają znaki niezgodne, które uniemożliwiają im odczytanie R - opisane w tym poście SO . Zastanawiam się, czy istnieje sposób - najlepiej metoda wiersza poleceń - aby je wyczyścić wsadowo i przekonwertować na powiedzmy UTF-8, a wszelkie niepotwierdzające znaki zostaną zamienione na coś w rodzaju „~”. Bardzo wdzięczny za pomoc.
1
iconv: SMKA121212 copy:13:121: cannot convert
iconv -t UTF-8//TRANSLIT -c infile > outfile.txt
wykonałem robotę. Dzięki chłopaki.iconv
z OS X obsługuje//TRANSLIT
i//IGNORE
. Zobaczyćman iconv_open
.