Jak mogę sprawić, by OCR lepiej rozpoznawał tekst moich dokumentów?

3

Nie mogę dostać niektórych moich dokumentów z obrazami do rozpoznania przez OCR. Nie są one szczególnie niskiej rozdzielczości - choć niektóre są zniekształcone - ale nie mogę ich uzyskać przez OCR nawet z Omnipage. Przesłałem jeden jako przykład (przekonwertowane z DOC na PDF dla Omnipage), ale mam więcej. Co mogę zrobić, aby odnieść sukces w OCR?

user55542
źródło

Odpowiedzi:

1

Pomimo tego, jak wyglądają na ekranie, obrazy tekstowe nie są bardzo wysokiej rozdzielczości. Możesz to zobaczyć, powiększając widok w przeglądarce PDF. Obrazy są pikselowane i nie wszystkie są czarno-białe.

Wyodrębniłem obrazy za pomocą pdfimages. Gocr pracował nad uzyskanymi obrazkami .ppm, ale z wieloma błędami. Nie mogłem zmusić tesseract do pracy z obrazami pomimo konwersji na tiff monochromatyczny.

W_Whalley
źródło