Jak mogę zamienić zdjęcia dokumentów papierowych w zeskanowany dokument?

44

Mój skaner się zepsuł! Mam jednak dobry aparat, więc zrobiłem kilka zdjęć dokumentów, które chcę zeskanować ... Wyglądają jednak jak fotografie papieru, a nie zeskanowane dokumenty:

  • Obrazy nie są płaskie
  • Oświetlenie nie jest nawet (cienie podczas wypaczania strony itp.)
  • Tekst oczywiście nie jest przetwarzany na tekst PDF możliwy do wklejenia.

Po prostu nie nadają się do użytku profesjonalnego, ale są blisko.

Szukam czegoś (lub metody), które mogłyby wykonać jedną lub wszystkie powyższe czynności, więc mogę przejść z wielu plików JPG do pojedynczego [opcjonalnie] pliku PDF z adnotacjami, w odpowiednim formacie (A4 typowo).

Wszelkie sugestie (poza wyjściem i zakupem nowego skanera)?

Oli
źródło
1
Na Androidzie aplikacja Google Drive może trochę przetworzyć i uzyskać plik PDF w formacie A4 z zestawu obrazów (tworząc nowy „skan”) - zastosuj czarno-biały i trochę prostowania (oba w aplikacji, podczas gdy tworzenie) i wygląda głównie na skan (niskiej jakości). OCR jest trudniejszym problemem.
muru
Nie znam żadnego oprogramowania Ubuntu, ale odrzuciłem skaner po odkryciu, że w telefonie komórkowym są aplikacje, które w większości robią to samo. Możesz zajrzeć do aplikacji Genius Scan (dla systemu Android) lub Scannable (dla telefonu iPhone). Następnie zastosuj, pdfjoinaby połączyć je ze sobą. Jednak bez OCR.
Jos
Powodem, dla którego chcę to robić za pomocą zdjęć, a nie aplikacji mobilnej, jest to, że mój dSLR jest [dosłownie] około tysiąc razy lepszy niż aparat mojego telefonu. A jeśli nic nie robi tego za jednym zamachem, myślę, że sam poradzę sobie z OCR. Istnieje wiele projektów typu open source, które wykonują wystarczająco dobrą pracę.
Oli
Być może właśnie wskrzesiłem skaner za pomocą taśmy klejącej, tostów i dżemu, więc pilność jest wyłączona, ale myślę, że nadal jest to interesujący problem.
Oli
Oli , przejrzałem kilka przykładów na Stackexchange, takich jak ten tex.stackexchange.com/questions/94523/simulate-a-scanned-paper i ten stackoverflow.com/questions/8955425/... po prostu nie jestem pewien, czy dobrze zadałem twoje pytanie;)
JoKeR,

Odpowiedzi:

46

Można to zrobić na kilka sposobów. Chociaż wszystkie moje przeklęte sposoby mają jeden problem, tak naprawdę nie spłaszczą twojego obrazu. Wymagany byłby mniej więcej dobry obraz.

Jednym prostym sposobem jest wypróbowanie oprogramowania ScanTailor

sudo apt-get install scantailor 

Wykonuje 6 kroków, aby zoptymalizować zdjęcia. W ostatnim kroku możesz wybrać opcję „Wyrównanie oświetlenia”, dzięki czemu uzyskasz ładny, czysty wygląd!


Osobiście zwykle po prostu używam GIMP . Ale potrzebujesz podstawowych umiejętności, aby osiągnąć swój cel.

sudo apt-get install gimp 
  1. przytnij zdjęcie w pożądany sposób
  2. użyj opcji Colors-> Curves, aby manipulować wyjściem kolorów w sposób, w jaki chcesz ...

Dostosuj krzywe kolorów, aby uzyskać ładnie czysty wydruk.


Innym fajnym małym programem jest gscan2pdf , w którym można również ładować zdjęcia i eksportować je jako PDF. Istnieje nawet link do GIMP, dzięki czemu możesz poprawić zdjęcie, wykonując powyższe kroki .

sudo apt-get install gscan2pdf 
Wittich
źródło
1
Nigdy wcześniej nie widziałem ScanTailora. Wydaje się być prawie idealny, z wyjątkiem tego, że nie mogę wymyślić, jak zapisać go jako coś, co chcę zachować (np. PDF). Jakieś pomysły?
Oli
PS: witamy w Ask Ubuntu i Stack Exchange!
Oli
1
@Oli dane wyjściowe zostaną zapisane w folderze wybranym na początku. Jak widzę teraz, zapisuje to jako tiff. Więc chcesz uruchomić convert file.tiff file.pdfkonsolę.
wittich,
2
O tak, mój zły. Używam wielu stron, więc przekonwertuję je na PNG find -maxdepth 1 -name '*.tif' -exec convert {} {}.png \;i dołączę do nich pdfjoin --outfile output.pdf --a4paper --rotateoversize false *.png. Właśnie wymyśliłem na głos, kiedy zapomnę, jak to wszystko zrobić :) Jeszcze raz dziękuję.
Oli
2
ScanTailor był odkryciem !!! Zwykle robiłbym to wszystko w Gimp lub zastrzeżonej aplikacji, takiej jak gimp, ale skaner ma tylko funkcje, które muszę przekonwertować na obrazy zeskanowane, usuwając cały szum :) O wiele łatwiej niż wszystkie krzywe przenieść się w Gimp. Dziękuję Ci bardzo !!!
Kostyantyn
20

Aby wygenerować kopię lub plik PDF do wydrukowania z dokumentu dokumentu, musimy ręcznie przekonwertować całkiem sporo, aby uzyskać obraz podobny do tego, jaki wyprowadza ze skanera. Większość tych konwersji można wykonać za pomocą Gimp.

  1. Postaraj się jak najlepiej wykorzystać oryginalny obraz źródłowy :

    • Wybierz jasne światło, aby zredukować szum pikseli, ale aby uniknąć odbić, krwawienia lub nierównomiernego rozproszenia światła, nie używaj lampy błyskowej, chyba że masz sprzęt typu studio.
    • Jeśli to możliwe, wybierz źródło światła z co najmniej dwóch stron (góra-dół lub prawo-lewo)
    • Rób zdjęcia z większej odległości przy użyciu teleobiektywu, a nie obiektywu szerokokątnego.
    • Użyj statywu, aby uniknąć wstrząsania artefaktami.
    • Skieruj kamerę prostopadle do powierzchni źródła.
    • Uwzględnij spację graniczącą z oryginalnym źródłem.
  2. Rozważ desaturację do skali szarości, aby uzyskać lepszy kontrast i usuwanie kolorowych artefaktów pikseli.

    wprowadź opis zdjęcia tutaj

  3. Dostosuj jasność i kontrast, aby przypuszczalnie szare tło było białe, a czarne litery - czarne.

    • Można to szybko zrobić za pomocą narzędzia Gimp Colours> Poziomy , w którym możemy przeciągnąć czarny punkt (po lewej) i biały punkt (po prawej) lub wybrać czarne / białe punkty za pomocą próbnika kolorów.

    wprowadź opis zdjęcia tutaj

    • Cieni na wygiętych rogach nie można usunąć bez usunięcia części tekstu (patrz 6.)
  4. Usunąć zniekształcenie poduszki?

    W zależności od jakości naszego obiektywu fotograficznego i zastosowanego poziomu powiększenia możemy mieć pewne artefakty poduszki, prowadzące do zgięcia zewnętrznych granic dokumentu. Istnieją również wtyczki do usuwania tych artefaktów, ale możemy szybciej wybrać poziom powiększenia naszego aparatu, gdy są one minimalne. Po kadrowaniu (5.) możemy ich nawet nie zauważyć. Usunięcie artefaktów poduszki może być zatem potrzebne tylko w przypadku, gdy nasz obraz źródłowy ma wiele prostych linii w częściach zewnętrznych.

  5. Obracanie i kadrowanie lub przekształcanie perspektywy w razie potrzeby.

    W przeciwieństwie do skanera, nasz aparat może nie uzyskać źródła równolegle do ramek obrazu. Narzędzie Gimp Rotate lub Perspective da nam wizualną informację zwrotną, abyśmy mogli obrócić lub dostosować perspektywę obrazu, aż linie tekstu będą równoległe do strony.

    wprowadź opis zdjęcia tutaj
    Narzędzie perspektywy po prawej stronie

Teraz możemy wybrać źródło dokumentu za pomocą narzędzia Zaznaczanie prostokąta, aby przyciąć obraz w dokumencie.

  1. Usuń niechciane cienie z wygięć, fałd lub winietowania z obiektywu aparatu.

    • Te cienie są trudne do usunięcia i nie ma wtyczki ani automatycznego filtra, który by nam pomógł.
    • Teoretycznie możemy nakładać wypełnienie gradientowe na te regiony, ale może to nie prowadzić do oczekiwanych rezultatów, a zatem może nie być warte czasu, którego potrzebowalibyśmy.
    • Dlatego najszybszą metodą jest po prostu użycie narzędzia gumki do usunięcia wszystkich tych brzydkich cieni poza tekstem (które powinniśmy oszczędzić).

      wprowadź opis zdjęcia tutaj usunięte -> wprowadź opis zdjęcia tutaj

  2. Skalować obraz?

    W zależności od rozdzielczości kamery powiększenie obrazu do rozmiaru skanera zwiększy tylko rozmiar pliku, ale nie wpłynie na jakość obrazu. Zmniejszenie spowoduje usunięcie szczegółów. Dlatego nie powinniśmy skalować obrazu, ale dostosowywać rozmiar wydruku w oknie dialogowym drukarki (lub poniżej w 8.).

  3. Wygeneruj PDF

    Możemy zaimportować nasz ładnie przywrócony ręcznie obraz do LibreOffice ( Wstaw> Media ) do

    • Zdefiniuj jego wymiary
    • Eksportuj jako plik PDF
    • Drukuj (dla mnie drukowanie z LibreOffice prowadzi do pożądanego rezultatu znacznie częściej niż cokolwiek innego).
Takkat
źródło
Dziękuję bardzo za szczegółowe kroki. Pomogli mi rozwiązać długotrwały problem konwersji zdjęć na zeskanowane dokumenty. Jestem pod wrażeniem siły transformacji perspektywy.
Chethan S.
Świetna odpowiedź! Narzędzie perspektywy na początku było dla mnie dość mylące, więc oto świetny przewodnik. Dodałem 4 linie pomocnicze, a następnie wytarłem rogi obrazu za pomocą narzędzia perspektywy, aż obraz będzie kwadratowy ze wszystkimi 4 liniami pomocniczymi.
Gabriel Staples,
(24 godziny później). Ups! Zapomniałem linku. Oto przewodnik, o którym mówiłem: lifewire.com/… .
Gabriel Staples,
1

Jeśli masz już obraz dokumentu, wystarczy pobrać aplikację CamScanner na swój telefon / tablet. Umożliwi to zaimportowanie obrazu, a następnie wykonanie sugerowanego przycięcia i spłaszczenie, a także dostosowanie kolorów / kontrastu itp. Zajmie to tylko minutę.

Dan
źródło