Byłem w pobliżu miejsca mojego dziadka w ostatni weekend. Moja babcia wyciągnęła tę gigantyczną (około 1400 stron) książkę z historii swojej rodziny sięgającą 1630 roku. Gigantyczny nerd, którym jestem, pomyślałem, że byłoby fajnie mieć wszystkie informacje przechowywane w bazie danych i dostępne w Internecie. Potrafię obsłużyć wszystkie programy internetowe i wyrażenia regularne, a co nie, ale nie wiem, co jest najlepszym sposobem na przeniesienie tekstu z książki na komputer.
Wiem, że niezbędny będzie pewien rodzaj OCR, z moich małych badań, które przeprowadziłem, wydaje się, że moje opcje to:
- zrób zdjęcie każdej strony aparatem, a następnie przetwarzaj zdjęcia za pomocą oprogramowania OCR
- użyj skanera, aby zeskanować każdą stronę, a następnie przetwarzaj za pomocą oprogramowania OCR
- użyj jakiegoś urządzenia ręcznego, takiego jak ten .
Czy ktoś ma jakieś pomysły na najlepszy sposób rozwiązania tego problemu? Nie chcę niszczyć książki, ponieważ o ile wiem, nie można jej zastąpić. To chyba jedyny raz, kiedy zeskanuję dużą książkę, więc nie sądzę, żebym chciał wydać więcej niż 250 USD na jakiekolwiek urządzenie. Nie mam nic przeciwko ręcznemu wysiłkowi (zdaję sobie sprawę, że najprawdopodobniej zajmie to miesiące), ale chciałbym znaleźć najbardziej efektywną metodę.
Uwaga na temat książki: ma ona tylko około 20 lat, więc jest w całkiem dobrym stanie. Jest monochromatyczny, a strony nie zaczęły żółknąć. Ponieważ jest tak duży, martwię się o możliwe cienie, gdy tekst zbliży się do wiązania.
Odpowiedzi:
Natknąłem się na to na Lifehacker jakiś czas z powrotem, i to był jeden z moich najlepszych projektów budowlanych od wieków.
Zastąp iPhone'a dowolnym aparatem lub obrazem, a otrzymasz stos ładnych plików JPEG o wysokiej rozdzielczości gotowych do OCR z dowolnym oprogramowaniem, nawet (urks!) MS Office ...;)
Tani. Efektywny. MAJSTERKOWANIE. Nie możesz pokonać takiego pomysłu.
EDYCJA: Komentarze podniosły pewne kwestie dotyczące cieni, zwijania się stron itp. Z łatwością można je rozwiązać dla każdego, kto dosłownie skopiował teksty z biblioteki.
Dodaj wiele źródeł światła, aby oświetlić książkę, i wyeliminuj cienie.
pochylić książkę pod kątem 90 stopni, aby strony nie zwijały się w kierunku wiązań pośrodku. Zachowuje również wiązanie.
Zobaczę, czy dam przykład i sam go skonfiguruję.
EDYCJA 2: przesłałem próbkę, w jaki sposób należy trzymać książkę, a także zauważyć źródło światła z lewej strony.
źródło
Z tego co wiem, ABBYY tworzy najlepsze oprogramowanie OCR, ale nie jest darmowe. Powinieneś spróbować użyć wersji próbnej programu ABBYY FineReader , może ci to pomoże.
źródło
Musisz jakoś uchwycić obraz. Istnieją różne usługi, które mogą to dla Ciebie zrobić. Będziesz także potrzebować kogoś, kto zna treść tekstu do korekty, ponieważ OCR nie jest jeszcze doskonały. Zwłaszcza z czymkolwiek odręcznie.
Inni omawiają twoje pytanie tutaj: http://ask.metafilter.com/92506/scan-my-books
Niektóre firmy zrobią to za Ciebie: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html
Niektóre darmowe oprogramowanie: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
źródło
W przypadku dużego i ważnego dla ciebie i twojego rodzinnego projektu, takiego jak ten, skaner książek dla majsterkowiczów może być dobrym rozwiązaniem, niektóre projekty nawet przewracają strony sportowe - http://www.diybookscanner.org/ Ten natywnie nie obsługuje OCR , ale wykonuje 600 stron na godzinę i można go uruchomić przez OCR po fakcie http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/
źródło
Możesz sprawdzić, czy uniwersytet w pobliżu ma cały skaner książek, a następnie błagać studenta o przekupienie książki.
źródło
Poleciłbym płaski skaner przystosowany do skanowania książek lub cały skaner książek, o czym wspomniał Chris.
Jeśli możesz, skompiluj swoje obrazy do formatu TIFF, ponieważ jest to standard branżowy, jeśli chodzi o systemy zarządzania dokumentami.
Do robienia OCR polecam tesseract OCR, ponieważ jest to ramy opracowane przez Google dla ich projektu książek.
źródło
choć automatyzacja tego procesu wydaje się kusząca, warto zainwestować więcej czasu i pracy, ponieważ ta książka jest sprawą osobistą. OCR wykona większość, ale będziesz musiał dokonać korekty strona po stronie i porównać z oryginałem. pamiętaj, że błędy autora są częścią umowy, nie poprawiaj ich (twórz przypisy, jeśli masz na to ochotę). nie spiesz się, nie poddawaj się presji, skanowanie książek to praca osła, ale dokładność się opłaca, a skończysz na dobrej cyfrowej kopii chronicznej rodziny. powodzenia w staraniach :)
źródło
W pracy korzystamy ze skanera książek Plustek Optibook 3600, który kosztuje około 250 USD .
Zasadniczo jest to standardowy skaner z płaskim łóżkiem, ale szklana płytka dochodzi do krawędzi skanera, dzięki czemu stronę książki można umieścić płasko na płycie. Eliminuje to cień kręgosłupa i pozwala uniknąć niszczenia książek.
źródło