Edytowanie przeszukiwanego OCR .pdf

2

Mój przypadek jest dość specyficzny, więc postaram się go wyjaśnić szybko i precyzyjnie. Muszę zdigitalizować kilka starych arkuszy papieru o wymiarach 230 mm x 268 mm (~ 9 "x 27,7") złożonych w 4 części; możesz znaleźć szybki przykład tutaj uzyskać pomysł.

Skanowanie i ponowne składanie nie jest prawdziwym problemem, będę skanować każdą krotnie i zestawiać je za pomocą programu Photoshop. Potrzebuję pliku .pdf z oryginalnym zeskanowanym obrazem strony, a także tekstu do odczytu / przeszukiwania i indeksowania w wyszukiwarkach internetowych.
Jak widać na powyższym rysunku, na stronie znajduje się również kilka pól ADS, które nie muszą być OCR, i można je pominąć.

Teraz użyłem programu Acrobat Pro X w wynikowym pliku .pdf, który ponownie skomponowałem za pomocą programu Photoshop. Wyniki są całkiem dobre, ale oczywiście nie są idealne, a to, co wydaje mi się najbardziej problematyczne, to poprawienie błędnego opracowanego tekstu i usunięcie lub wykluczenie niepotrzebnego obszaru dokumentu.

Chciałbym wiedzieć, czy istnieje aplikacja do edycji bazowego tekstu OCR w bardziej praktyczny sposób niż oferuje Acrobat. Adobe udostępnia w panelu narzędzi „Znajdź podejrzanych” (co może być bardzo irytujące w użyciu), ale podejrzany tekst nie zawsze jest kompletny z tym, co naprawdę jest złe, wiele razy znaki, które rozpoznaje jako prawidłowe, wcale nie są takie (np. Kursywa „l” uważa się za „/” i podobne); niestety mój tekst jest częściowo złożony również z innych języków czcionek, takich jak japoński lub chiński, a tekst zmienia się najczęściej jako gówniany jibberish, więc muszę też poprawić niewłaściwy tekst zgodnie z wybranymi znakami.

Rodzaj porównywanego edytora, podobnie jak w jednym okienku, zeskanowany obraz, w drugim tekst OCR wybranego obszaru dokumentu, byłby najbardziej idealnym rozwiązaniem, jak sądzę, do szybkiego i skutecznego korygowania błędów.
Możliwości zdefiniowania i wykluczenia obszarów zeskanowanego dokumentu, które mają być przetwarzane przez OCR, byłyby rzeczywiście bardzo potrzebną funkcją; Odkryłem, że za pomocą programu Acrobat możesz użyć narzędzia edycji bezpośredniej strzałki, aby usunąć ramki tekstowe, które mogą być nieco funkcjonalne, nawet jeśli są dość trudne w użyciu, ponieważ w większości przypadków klikniesz na zeskanowany obraz tła.

Jakieś sugestie dotyczące tego typu pracy? Może inny przepływ pracy jest bardziej praktyczny i / lub wydajny? Wszelkie wskazówki są rzeczywiście mile widziane!

Im na komputerze Win 7 64 bit.

Gruber
źródło

Odpowiedzi:

3

Możesz spróbować ABBYY FineReader . Pasuje do opisu Twoich potrzeb.

user291737
źródło
Gdzie można to znaleźć?
Scott
Właśnie dodałem link. To nie jest wolne oprogramowanie.
user291737
mmm dzięki za napiwek, spróbuję.
Gruber
Jest to rzeczywiście bardzo ważny program z dokładnie tym, o co prosiłem. Na początku jest to trochę przytłaczające, ale dokumentacja online jest bardzo kompletna i dość intuicyjna dla niektórych prostych czynności!
Gruber