Organizuj większość plików PDF według języka

1

jest sposób na zorganizowanie 2500 plików PDF zgodnie z językiem tekstu w każdym pliku. Mam 2500 instrukcji konserwacji w różnych językach i mam je w jednym folderze Muszę wyodrębnić tylko pliki w języku angielskim.

nic nie znalazłem w sieci :-)

Dziękuję Ci

arin
źródło
Czy nazwa pliku daje jakąkolwiek „podpowiedź” co do języka, takiego jak plik_en lub plik_es?
Dave

Odpowiedzi:

1

Ogólnie nie. W twoim konkretnym przypadku może to być możliwe, ale musisz wykonać znaczną pracę.

Ogólnie

Jestem pewien, że w specyfikacji PDF nie ma niczego, co wymusza obecność metadanych wskazujących podstawowy język tekstu w pliku PDF. Nawet gdyby istniało, jest tak wiele różnych aplikacji do tworzenia plików PDF, że możesz być pewien, że niektóre z nich pominą je lub ustawią na wartość ogólną.

Jestem pewien, że możesz tworzyć pliki PDF z plików PS, które używają dowolnego kodowania tekstu. Oznacza to, że nie można nawet zagwarantować, że kodowanie można określić na podstawie treści PDF. Dlatego nie można mieć pewności, że można wyodrębnić tekst, z którego można odgadnąć język.

Przypadek szczególny

Jeśli Twoje pliki PDF pochodzą z jednego źródła, wszystkie są tworzone przy użyciu tego samego zestawu narzędzi i mają ograniczony zakres języków, możliwe jest napisanie programu lub skryptu, aby zrobić to, co chcesz. Jednak jest mało prawdopodobne, aby wystarczająca liczba ludzi potrzebowała łatwego do znalezienia istniejącego rozwiązania, które działałoby w konkretnym przypadku.

RedGrittyBrick
źródło