Praktyczne rozwiązanie OCR do konwersji dużej książki na format cyfrowy?

12

Byłem w pobliżu miejsca mojego dziadka w ostatni weekend. Moja babcia wyciągnęła tę gigantyczną (około 1400 stron) książkę z historii swojej rodziny sięgającą 1630 roku. Gigantyczny nerd, którym jestem, pomyślałem, że byłoby fajnie mieć wszystkie informacje przechowywane w bazie danych i dostępne w Internecie. Potrafię obsłużyć wszystkie programy internetowe i wyrażenia regularne, a co nie, ale nie wiem, co jest najlepszym sposobem na przeniesienie tekstu z książki na komputer.

Wiem, że niezbędny będzie pewien rodzaj OCR, z moich małych badań, które przeprowadziłem, wydaje się, że moje opcje to:

  1. zrób zdjęcie każdej strony aparatem, a następnie przetwarzaj zdjęcia za pomocą oprogramowania OCR
  2. użyj skanera, aby zeskanować każdą stronę, a następnie przetwarzaj za pomocą oprogramowania OCR
  3. użyj jakiegoś urządzenia ręcznego, takiego jak ten .

Czy ktoś ma jakieś pomysły na najlepszy sposób rozwiązania tego problemu? Nie chcę niszczyć książki, ponieważ o ile wiem, nie można jej zastąpić. To chyba jedyny raz, kiedy zeskanuję dużą książkę, więc nie sądzę, żebym chciał wydać więcej niż 250 USD na jakiekolwiek urządzenie. Nie mam nic przeciwko ręcznemu wysiłkowi (zdaję sobie sprawę, że najprawdopodobniej zajmie to miesiące), ale chciałbym znaleźć najbardziej efektywną metodę.

Uwaga na temat książki: ma ona tylko około 20 lat, więc jest w całkiem dobrym stanie. Jest monochromatyczny, a strony nie zaczęły żółknąć. Ponieważ jest tak duży, martwię się o możliwe cienie, gdy tekst zbliży się do wiązania.


źródło
1
Na marginesie, jeśli książka ma zaledwie 20 lat, a informacje pochodzą z XVI wieku, to gdzie jest oryginalny materiał źródłowy? To może być również miłe do uchwycenia!
Craig
Tak, to też byłoby fajne. Zobaczę, czy uda mi się wyśledzić oryginalnego autora.

Odpowiedzi:

8

Natknąłem się na to na Lifehacker jakiś czas z powrotem, i to był jeden z moich najlepszych projektów budowlanych od wieków.

wprowadź opis zdjęcia tutaj

Zastąp iPhone'a dowolnym aparatem lub obrazem, a otrzymasz stos ładnych plików JPEG o wysokiej rozdzielczości gotowych do OCR z dowolnym oprogramowaniem, nawet (urks!) MS Office ...;)

Tani. Efektywny. MAJSTERKOWANIE. Nie możesz pokonać takiego pomysłu.

EDYCJA: Komentarze podniosły pewne kwestie dotyczące cieni, zwijania się stron itp. Z łatwością można je rozwiązać dla każdego, kto dosłownie skopiował teksty z biblioteki.

Dodaj wiele źródeł światła, aby oświetlić książkę, i wyeliminuj cienie.

pochylić książkę pod kątem 90 stopni, aby strony nie zwijały się w kierunku wiązań pośrodku. Zachowuje również wiązanie.

Zobaczę, czy dam przykład i sam go skonfiguruję.

EDYCJA 2: przesłałem próbkę, w jaki sposób należy trzymać książkę, a także zauważyć źródło światła z lewej strony.

wprowadź opis zdjęcia tutaj

kaliban
źródło
To jest takie super! Chciałbym móc to zrobić :)
Alex
Jednak potrzebujesz do tego prawdziwego aparatu i dobrej jakości, inaczej skończysz na obrazie, którego nie możesz wykorzystać, zwłaszcza z bardzo starej książki. Więc to nie jest tanie.
Gnoupi
Bardzo interesujące. Zastanawiam się, jak to by działało z książką, biorąc pod uwagę cienie, które prawdopodobnie byłyby między stronami.
Jeśli strony są wygięte lub mają cienie, będziesz mieć problemy z rozpoznaniem liter przez oprogramowanie OCR.
alex
dodaj wiele źródeł światła, aby oświetlić książkę i wyeliminuj cienie. nachyl książkę pod kątem 90 stopni, aby strony nie zawijały się w stronę powiązań pośrodku. To prosty zdrowy rozsądek, robimy to cały czas na studiach, robiąc zdjęcia tekstów z biblioteki.
caliban
3

Z tego co wiem, ABBYY tworzy najlepsze oprogramowanie OCR, ale nie jest darmowe. Powinieneś spróbować użyć wersji próbnej programu ABBYY FineReader , może ci to pomoże.

alex
źródło
1

Musisz jakoś uchwycić obraz. Istnieją różne usługi, które mogą to dla Ciebie zrobić. Będziesz także potrzebować kogoś, kto zna treść tekstu do korekty, ponieważ OCR nie jest jeszcze doskonały. Zwłaszcza z czymkolwiek odręcznie.

Inni omawiają twoje pytanie tutaj: http://ask.metafilter.com/92506/scan-my-books

Niektóre firmy zrobią to za Ciebie: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Niektóre darmowe oprogramowanie: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

NickSentowski
źródło
1

W przypadku dużego i ważnego dla ciebie i twojego rodzinnego projektu, takiego jak ten, skaner książek dla majsterkowiczów może być dobrym rozwiązaniem, niektóre projekty nawet przewracają strony sportowe - http://www.diybookscanner.org/ Ten natywnie nie obsługuje OCR , ale wykonuje 600 stron na godzinę i można go uruchomić przez OCR po fakcie http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

Xaq Fixx
źródło
0

Poleciłbym płaski skaner przystosowany do skanowania książek lub cały skaner książek, o czym wspomniał Chris.

Jeśli możesz, skompiluj swoje obrazy do formatu TIFF, ponieważ jest to standard branżowy, jeśli chodzi o systemy zarządzania dokumentami.

Do robienia OCR polecam tesseract OCR, ponieważ jest to ramy opracowane przez Google dla ich projektu książek.

Greg Buehler
źródło
0

choć automatyzacja tego procesu wydaje się kusząca, warto zainwestować więcej czasu i pracy, ponieważ ta książka jest sprawą osobistą. OCR wykona większość, ale będziesz musiał dokonać korekty strona po stronie i porównać z oryginałem. pamiętaj, że błędy autora są częścią umowy, nie poprawiaj ich (twórz przypisy, jeśli masz na to ochotę). nie spiesz się, nie poddawaj się presji, skanowanie książek to praca osła, ale dokładność się opłaca, a skończysz na dobrej cyfrowej kopii chronicznej rodziny. powodzenia w staraniach :)


źródło
to naprawdę dobry punkt. Nie zastanawiałem się nad udostępnieniem oryginalnej treści książki w formie cyfrowej, ale tak długo, jak ją mam, równie dobrze mogę stworzyć wersję .pdf.
dlaczego PDF pomyśl HTML. równie dobrze możesz zachować oryginalne skany, chociaż skończysz z ogromną ilością danych.
Moim pomysłem było posiadanie wszystkich informacji o urodzeniu / pochodzeniu w bazie danych, dzięki czemu mogłem stworzyć interfejs WWW, który ułatwiłby nawigację / wyszukiwanie / aktualizację. Planuję pracować z dowolnymi literówkami w tej wersji. Poza tym mam kilku kuzynów, których tam nie ma i miło byłoby je dodać. Myślałem o pdf, ponieważ byłoby miło mieć coś, co wyglądałoby jak oryginalna książka z oryginalnymi numerami stron i takimi nienaruszonymi. Tę wersję zostawiłbym w spokoju i trzymałem wszystkie literówki z książki.
0

W pracy korzystamy ze skanera książek Plustek Optibook 3600, który kosztuje około 250 USD .
Zasadniczo jest to standardowy skaner z płaskim łóżkiem, ale szklana płytka dochodzi do krawędzi skanera, dzięki czemu stronę książki można umieścić płasko na płycie. Eliminuje to cień kręgosłupa i pozwala uniknąć niszczenia książek.

wprowadź opis zdjęcia tutaj

dłonie
źródło
Czy kiedykolwiek próbowałeś używać tego z naprawdę grubą książką? Ma grubość 3 cali.
Jeśli możesz otworzyć go pod kątem 90 °, a strona jest dość płaska, powinno być dobrze. Spróbuj na krawędzi stołu.
pelms