Wyodrębnianie tekstu z zeskanowanej książki .PDF [zamknięte]

6

Zeskanowałem książkę w formacie PDF, ale jakość jest raczej niska:

enter image description here

(Język jest rumuński i jest to książka z fizjologii medycznej, na wypadek gdybyś się zastanawiał)

Chcę wyodrębnić tekst z książki (1500 stron), ale zachowuj obrazy tak, jak są. Naprawdę nie sądzę, że mam szansę znaleźć rozwiązanie, więc na pewno kupię książkę.

Czy jest jakieś potężne oprogramowanie, które potrafi robić to, czego szukam? Musi także rozpoznać język rumuński.

ChristianM
źródło
1
kup to, to legalne. :)
A jeśli to naprawdę stara książka, której nie może już kupić? :)
Botond Balázs
@Botond, to naprawdę ogromny problem z Google Book Search. Szacuje się, że 70% książek jest chronionych prawem autorskim, ale nie ma ich w druku. Ugoda w sprawie działań grupowych (wynegocjowana między Google a kilkoma prawnikami pracującymi dla gildii autorów i AAP) stwierdza, że ​​w przypadku druku poza drukowanym nie potrzebują pozwolenia, chyba że właściciele praw wyraźnie zrezygnują z umowy. I tak, jak działa prawo amerykańskie, jest to wiążące dla każdego dzieła literatury kiedykolwiek wyprodukowanego. Tak długo, jak inne firmy zarabiają podobnie, Google ma monopol na starą literaturę :-( Zobacz Boing Boing at tinyurl.com/yl5rlts
Arjan
1
Problemem OP jest wyodrębnienie tekstu z książki. To wciąż problem, nawet jeśli kupił książkę. Kwestie prawne, choć warte rozważenia, są poza zakresem.
mouviciel

Odpowiedzi:

6

Wcześniej opublikowałem odpowiedź szczegółowo, jak używać Klinowy (oprogramowanie open source) do wykonywania OCR na plikach PDF i tworzenia plików PDF z rozpoznanym tekstem w ukrytej warstwie tekstowej „za” oryginalnym obrazem. O ile mi wiadomo, klinowce rzeczywiście wspierają również język rumuński.

Podczas gdy szczególne rozwiązanie było dla Linuksa, Cuneiform jest dostępny także dla Windows.

Jukka Matilainen
źródło
2

Adobe Acrobat Professional może to zrobić. Nie jestem pewien, czy istnieje wersja rumuńska ...

Lukas
źródło
2

ABBYY Fine Reader jest bardzo silnym oprogramowaniem OCR. Zajmuje się bardzo złożonymi układami i obsługuje wiele formatów (w tym pdf). Rumuński jest obsługiwany przez słownik, tj. Oprogramowanie używa słownika do ustalania priorytetów podczas rozpoznawania. ( tutaj ).

W każdym razie, literatura naukowa OCR, z niską jakością skanowania, jest trudnym zadaniem. Przygotuj się na poświęcenie dużej ilości czasu, aby pomóc oprogramowaniu w sprawdzaniu wyników i poprawkach. Na twoim skanie widzę dużo bardzo złej jakości tekstu :(. Nie sądzę, aby jakiekolwiek oprogramowanie OCR mogło normalnie z nim pracować.

Konstantin Tenzin
źródło
1

Recognita OmniPage jest zdecydowanie najlepszym programem OCR, jakiego kiedykolwiek używałem. Jestem pewien, że rozpozna tekst w języku rumuńskim; nie miał problemu z moim rodowitym Węgrem. Możesz pobrać wersję próbną z linku i użyć go do konwersji książki. Pełna wersja jest niestety dość droga (499,99 USD) ...

Botond Balázs
źródło
1

Kupiłem książkę!

ChristianM
źródło
0

Cóż, w przypadku rozpoznawania tekstu zwykle poszukuje się programów OCR (optyczne rozpoznawanie znaków). Jest ich wiele, więc proste wyszukiwanie google zrobi więcej niż ja tutaj.

Nie rozumiałem ostatniej części „rozpoznaj język rumuński” - masz na myśli, że musi on rozpoznać język rumuński lub być zlokalizowany (przetłumaczony) na rumuński? W przypadku pierwszego uważam, że nie będzie problemu; jeśli tak jest, to nie jestem tego taki pewien.

Ponadto, jeśli nie jest to książka twoich lokalnych rodaków, istnieje szansa, że ​​jest już przetłumaczona na język angielski ... więc jeśli masz ją w formacie pdf w języku rumuńskim, spróbuj wyszukać wersję angielską ... to wiesz ... nielegalne (czasami jednak nie ma wyboru).

Rook
źródło
To znaczy, że musi rozpoznać rumuńskie czcionki / rumuńskie znaki. Ktoś edytował mój post .. nie wiem dlaczego. : |
ChristianM
Nie sądzę, że powinieneś mieć z tym jakieś problemy (tylko w przypadku bardzo źle zeskanowanych plików, gdy nie może zdecydować, czy coś jest literą czy kropelką, może będziesz musiał ręcznie poprawić) - użyłem różnorodności oprogramowania w języku chorwackim (mamy trochę dziwnych znaków w naszym alfabecie) i udało się.
Rook
OCR często używa sprawdzania pisowni w celu uzupełnienia błędów skanowania. Tak więc sprawdzanie pisowni musi wtedy wspierać język rumuński. (Tak, niektóre wydajności OCR lepszy wyniki niż oryginalny tekst, ze względu na ten mechanizm sprawdzania pisowni.)
Arjan
Czcionki te są zawsze trudne, gdy używa się oprogramowania OCR ă, â, î, ş, ţ, Ă, Â, Î, Ş, Ţ . Zdziwiłbyś się, jak źle wychodzą, skanując książkę.
alex
-1

Próbować PDFCubed.com . To internetowa usługa OCR, która ułatwia tworzenie tekstu PDF z możliwością wyszukiwania. Zeskanowane dokumenty można przesyłać za pośrednictwem Internetu, poczty elektronicznej lub skrzynki odbiorczej.

rlangner
źródło