Zeskanowałem książkę w formacie PDF, ale jakość jest raczej niska:
(Język jest rumuński i jest to książka z fizjologii medycznej, na wypadek gdybyś się zastanawiał)
Chcę wyodrębnić tekst z książki (1500 stron), ale zachowuj obrazy tak, jak są. Naprawdę nie sądzę, że mam szansę znaleźć rozwiązanie, więc na pewno kupię książkę.
Czy jest jakieś potężne oprogramowanie, które potrafi robić to, czego szukam? Musi także rozpoznać język rumuński.
Odpowiedzi:
Wcześniej opublikowałem odpowiedź szczegółowo, jak używać Klinowy (oprogramowanie open source) do wykonywania OCR na plikach PDF i tworzenia plików PDF z rozpoznanym tekstem w ukrytej warstwie tekstowej „za” oryginalnym obrazem. O ile mi wiadomo, klinowce rzeczywiście wspierają również język rumuński.
Podczas gdy szczególne rozwiązanie było dla Linuksa, Cuneiform jest dostępny także dla Windows.
źródło
Adobe Acrobat Professional może to zrobić. Nie jestem pewien, czy istnieje wersja rumuńska ...
źródło
ABBYY Fine Reader jest bardzo silnym oprogramowaniem OCR. Zajmuje się bardzo złożonymi układami i obsługuje wiele formatów (w tym pdf). Rumuński jest obsługiwany przez słownik, tj. Oprogramowanie używa słownika do ustalania priorytetów podczas rozpoznawania. ( tutaj ).
W każdym razie, literatura naukowa OCR, z niską jakością skanowania, jest trudnym zadaniem. Przygotuj się na poświęcenie dużej ilości czasu, aby pomóc oprogramowaniu w sprawdzaniu wyników i poprawkach. Na twoim skanie widzę dużo bardzo złej jakości tekstu :(. Nie sądzę, aby jakiekolwiek oprogramowanie OCR mogło normalnie z nim pracować.
źródło
Recognita OmniPage jest zdecydowanie najlepszym programem OCR, jakiego kiedykolwiek używałem. Jestem pewien, że rozpozna tekst w języku rumuńskim; nie miał problemu z moim rodowitym Węgrem. Możesz pobrać wersję próbną z linku i użyć go do konwersji książki. Pełna wersja jest niestety dość droga (499,99 USD) ...
źródło
Kupiłem książkę!
źródło
Cóż, w przypadku rozpoznawania tekstu zwykle poszukuje się programów OCR (optyczne rozpoznawanie znaków). Jest ich wiele, więc proste wyszukiwanie google zrobi więcej niż ja tutaj.
Nie rozumiałem ostatniej części „rozpoznaj język rumuński” - masz na myśli, że musi on rozpoznać język rumuński lub być zlokalizowany (przetłumaczony) na rumuński? W przypadku pierwszego uważam, że nie będzie problemu; jeśli tak jest, to nie jestem tego taki pewien.
Ponadto, jeśli nie jest to książka twoich lokalnych rodaków, istnieje szansa, że jest już przetłumaczona na język angielski ... więc jeśli masz ją w formacie pdf w języku rumuńskim, spróbuj wyszukać wersję angielską ... to wiesz ... nielegalne (czasami jednak nie ma wyboru).
źródło
Próbować PDFCubed.com . To internetowa usługa OCR, która ułatwia tworzenie tekstu PDF z możliwością wyszukiwania. Zeskanowane dokumenty można przesyłać za pośrednictwem Internetu, poczty elektronicznej lub skrzynki odbiorczej.
źródło