Mam kilka plików PDF, które zawierają ligatury w tekście (np. ff
Są łączone w pojedynczy znak, ff
).
Czy istnieje prosty sposób na ich usunięcie podczas kopiowania tekstu z pliku PDF? (tzn. kiedy wklejam, chciałbym, ff
aby był wklejony jako ff
).
Kopiuję dużo tekstu z tych plików PDF do odpowiedzi w Stack Overflow i uważam, że ligatury są co najmniej wstrętne (ok, przyznaję, jestem naprawdę wybredna :-P); ligatury również nie wyświetlają się poprawnie po skopiowaniu do innych miejsc (np. jeśli skopiuję je do Notatnika, pojawią się jako bloki).
Nie mogę modyfikować plików PDF.
Używam zarówno Adobe Acrobat Reader, jak i Foxit Reader, ale chętnie wypróbuję nowy czytnik PDF.
źródło
Bardziej szczegółowo odpowiedziałem na podobne pytanie - Dlaczego tekst `fi` jest odcinany, gdy kopiuję z pliku PDF lub drukuję dokument?
Możesz zamienić „złamane” słowa w skopiowanym tekście, jeśli masz mapowanie ze złamanych słów na oryginalne. Napisałem skrypt do wygenerowania tego mapowania poprzez usunięcie ligatur ze słów i sprawdzenie, czy powstałe słowo jest unikalne. Dla mojego słownika angielskich słów, 99,5% wszystkich możliwych rozbitych słowa są wymienne, i 92,3% słów, które zawierają sekwencję ligatury (
ff
,fi
,fl
,ffi
, iffl
) można odzyskać. Różnica pomiędzy tymi dwoma procentach jest z uwagi na zaskakująco dużą liczbę słów dozwolonych, które są tworzone przez usunięcie więzadeł innych uzasadnionych słowa (na przykładbutterfly --> buttery
,fluffs --> us
imisfits --> mists
).Oto plik CSV „łamanych” słów, które można zastąpić (i słów, którymi były kiedyś): http://www.filedropper.com/brokenligaturewordfixes
źródło
Moim sposobem było po prostu skopiować i wkleić z pliku PDF do notatnika (aby usunąć formatowanie), a następnie z notatnika do programu Microsoft Word.
W programie Word wszystkie ligatury są zmieniane za pomocą innych czcionek formatujących.
Używam znajdź i zamień dla każdego z nich (jak ^ l dla ręcznego przerywania linii i ^ m dla ręcznego przerywania strony i tak dalej, wszystko można łatwo znaleźć online) i zastępuję prawidłową formą.
W 4 lub 5 krokach dość szybko obejmuję wszystkie możliwości. Przydatne jest również usunięcie dodatkowych przerw w akapicie (^ P)
źródło