Jak wyodrębnić tekst z pliku PDF, który nie został zbudowany za pomocą indeksu? Cały tekst, ale nie mogę niczego wyszukiwać ani wybierać. Używam Kubuntu, a Okular nie ma tej
Optyczne rozpoznawanie znaków (OCR) to proces konwertowania obrazów tekstu na tekst, którym można manipulować za pomocą edytorów tekstu itp.
Dzisiaj otrzymałem plik PDF od naszego dostawcy, który zawierał kilka wydrukowanych i zeskanowanych stron z podpisami itp. Otworzyłem go w programie Acrobat Reader DC. Ku mojemu zdziwieniu tekst z wyraźnie zeskanowanych obrazów mógł zostać wybrany i skopiowany jako tekst. Zobacz zrzut...
To zostało omówione rok temu tutaj: Batch OCR dla wielu plików PDF (jeszcze nie OCRed)? Czy jest jakiś sposób na grupowanie plików PDF OCR, które nie zostały jeszcze OCRedowane? Myślę, że jest to obecny stan rzeczy dotyczących dwóch zagadnień: Partie plików PDF OCR Windows Acrobat - jest to...
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizować pytanie , dlatego na temat Super Użytkownika. Zamknięte 4 lata temu . Mam plik PDF zeskanowanej książki. Szukam darmowego...
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizować pytanie , dlatego na temat Super Użytkownika. Zamknięte 4 lata temu . Wiele razy natrafiłem na mapy bitowe zawierające wyłącznie akapity...
Evernote wykonuje OCR na zapisywanych do niego obrazach. Czy istnieje sposób, aby uzyskać ekwiwalent pełnego tekstu dla obrazu w Evernote, czy OCR służy tylko do
Byłem w pobliżu miejsca mojego dziadka w ostatni weekend. Moja babcia wyciągnęła tę gigantyczną (około 1400 stron) książkę z historii swojej rodziny sięgającą 1630 roku. Gigantyczny nerd, którym jestem, pomyślałem, że byłoby fajnie mieć wszystkie informacje przechowywane w bazie danych i dostępne w...
Od jakiegoś czasu szukam Google, ale nie mogę znaleźć odpowiedzi na moje pytanie. Mam niechciane warstwy OCR w dokumencie, który ostatnio skanowałem za pomocą Adobe Acrobat. Nie został poprawnie rozpoznany, a ja chcę zmienić niektóre informacje, ale OCR sprawia, że poszukiwane informacje...
Ten plik PDF został stworzony przez Abbyy Finereader 10: http://ebooks.zeitr.org/from_abbyy.pdf Możesz skopiować i wkleić pierwsze zdanie i uzyskać ten (bardzo dobry) wynik tekstowy: Der »Bund Deutscher Gymnastik-Schulleiter« wurde am 20 listopada 1955 anläßlich einer Zusammenkunft der...
Użyłem SimpleOCR , który ma ładny GUI do poprawiania błędów. Niestety popełnia wiele błędów! (i cierpi na inne błędy i ograniczenia) Z drugiej strony Tesseract jest dokładniejszy, ale w ogóle nie ma GUI. Moje pytanie brzmi: czy istnieje bezpłatny program OCR dla systemu Windows, który ma ładny...
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizować pytanie , dlatego na temat Super Użytkownika. Zamknięte 5 lat temu . Korzystam z Google Desktop Search (korzystam z systemu Vista) i...
Przetwarzanie OCR zajmuje dużo czasu. Korzystanie z wielu rdzeni procesora przyspieszy przetwarzanie. Acrobat 10 nie był aplikacją wielowątkową . Co powiesz na Acrobat 11? Czy 11 domyślnie robi OCR przy użyciu wielu rdzeni procesora (jeśli są dostępne)? Jeśli nie, czy istnieją jakieś obejścia, np....
Jak rozpocząć skanowanie i rozpoznawanie znaków za pomocą Microsoft Office Word 2010 (Beta)? Nie mogę znaleźć opcji skanowania dokumentu w skanerze bezpośrednio do dokumentu Word 2010. Sprawdziłem ustawienia instalacji pakietu Office 2010 (Beta) i elementy OCR zostały
Zeskanowałem książkę w formacie PDF, ale jakość jest raczej niska: (Język jest rumuński i jest to książka z fizjologii medycznej, na wypadek gdybyś się zastanawiał) Chcę wyodrębnić tekst z książki (1500 stron), ale zachowuj obrazy tak, jak są. Naprawdę nie sądzę, że mam szansę znaleźć...
Mam problem z odczytaniem pliku PDF na moim Kindle, ponieważ tekst OCR jest wyświetlany w dwóch kolumnach na stronie. (IE Książka została zeskanowana dwie strony jednocześnie, OCR). Jak mogę sformatować to w jednej kolumnie (lub dowolnym innym stylu), aby móc czytać na moim...
Tesseract 3.03 został niedawno wydany i właśnie go zainstalowałem. Niemniej jednak dane do pobrania w języku angielskim nie są dostarczane (z https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1 ). Na stronie Tesseract znajduje się link „Pobierz”, ale można znaleźć tylko „Dane w języku...
Nie mogę dostać niektórych moich dokumentów z obrazami do rozpoznania przez OCR. Nie są one szczególnie niskiej rozdzielczości - choć niektóre są zniekształcone - ale nie mogę ich uzyskać przez OCR nawet z Omnipage. Przesłałem jeden jako przykład (przekonwertowane z DOC na PDF dla Omnipage), ale...
Szukam sposobu na konwersję tysięcy plików PDF do przeszukiwalnych plików PDF. Użyłem programu o nazwie „PDF Create Assistant”, który był dostarczany wraz z programem Nuance ecopy oprogramowanie. Nie możesz jednak wybrać folderu, musisz przejść do każdego podfolderu, wybrać pliki do...
Znajomy poprosił o konwersję arabskiego tekstu .pdf na Word. Dokumenty Google nie wydają się opcją, ale nowy OCR wyglądał obiecująco, ponieważ język arabski znajduje się w menu rozwijanym „Język rozpoznawania”. Nie udało mi się uruchomić tej funkcji poza „Błąd! Nie można rozpoznać tekstu”. nawet z...
Kiedyś OCR program do konwertowania jakieś zeskanowane strony do pliku MS Word. Po konwersji można znaleźć symbol ¬w środku wielu słów. Próbowałem go wyszukać i zastąpić , ale słowo nie jest w stanie go wykryć. Co to jest i jak mogę to