Evernote wykonuje OCR na zapisywanych do niego obrazach. Czy istnieje sposób, aby uzyskać ekwiwalent pełnego tekstu dla obrazu w Evernote, czy OCR służy tylko do wyszukiwania?
Interfejs API Evernote ma funkcję pobierania tekstu i prostokąta tam, gdzie ten tekst znajduje się wewnątrz obrazu. Zobacz http://evernote.com/about/developer/api/evernote-api.htm , sprawdź „Format XML indeksu Evernote Recognition” i funkcje, aby go odzyskać. Problem polega na tym, że nie wykonują tradycyjnego OCR ... ich algorytm OCR może wytwarzać różne słowa dla pojedynczego „słowa” na obrazie. Używają go tylko do wyszukiwania, więc jest to dla nich w porządku, ale nie jest dobre do używania go jako silnika rozpoznawania. (Chociaż dają ci wagę dla każdego słowa alternatywnego, więc może możesz go użyć)
Ponadto Evernote najwyraźniej nie decyduje, że dany obraz jest równoważny dokładnie jednemu słowu - np. Evernote nie określa, że dany obraz jest „wskazówką” i nie jest „należny”. Przeciwnie, będzie śledzić oba, a wyszukiwanie któregokolwiek zwróci ten sam obraz. Dlatego nie ma sposobu, aby uzyskać ekwiwalent pełnego tekstu, ponieważ Evernote nie decyduje, co to właściwie jest pełny tekst, a jedynie to, co może być.
evernote wypłaca przyzwoitą sumę twórcy ocr-stuff LUB zapłaciła przyzwoitą sumę, aby coś ze sobą współpracować. dlatego naprawdę wątpię, że pozwolą ci pobrać wyodrębniony tekst (+ pozycjonowanie na obrazie).
(może być modelem biznesowym do skanowania obrazów innych ludzi i zapewnienia dobrego ocr :))
więc odpowiedź brzmi: nie.
Nie jestem pewien, ile zaawansowania potrzebujesz, ale ponieważ używam również Adobe Acrobat, po prostu kliknij prawym przyciskiem myszy załącznik Evernote, aby otworzyć go w Acrobat.
Następnie w programie Acrobat wybieram „Document | OCR text rozpoznawanie”, a następnie zapisuję dokument jako zwykły tekst.
Działa to dla mnie dobrze, ponieważ potrzebuję tylko sporadycznej konwersji OCR.
źródło
Jeśli możesz pobrać wszystkie obrazy z Evernote, możesz wykonać OCR za pomocą Dokumentów Google.
Możesz przesłać folder obrazów do Dokumentów Google i przekonwertować je na Dokumenty, które będą zawierały zarówno obraz, jak i tekst OCRed.
Możesz następnie pobrać wszystkie te dokumenty jako zwykły tekst, co spowoduje usunięcie obrazu.
Jeśli nazwiesz wszystkie obrazy Evernote skrótem (np.
md5
), Powinno być łatwo połączyć pliki tekstowe pobrane z Dokumentów Google z oryginalnym obrazem.źródło
Korzystam z systemu Windows i używam Adobe Acrobat Pro i Word, więc wykonuję następujące czynności:
źródło