Wyodrębnij tekst OCR z Evernote

13

Evernote wykonuje OCR na zapisywanych do niego obrazach. Czy istnieje sposób, aby uzyskać ekwiwalent pełnego tekstu dla obrazu w Evernote, czy OCR służy tylko do wyszukiwania?

Leigh Riffel
źródło

Odpowiedzi:

15

Interfejs API Evernote ma funkcję pobierania tekstu i prostokąta tam, gdzie ten tekst znajduje się wewnątrz obrazu. Zobacz http://evernote.com/about/developer/api/evernote-api.htm , sprawdź „Format XML indeksu Evernote Recognition” i funkcje, aby go odzyskać. Problem polega na tym, że nie wykonują tradycyjnego OCR ... ich algorytm OCR może wytwarzać różne słowa dla pojedynczego „słowa” na obrazie. Używają go tylko do wyszukiwania, więc jest to dla nich w porządku, ale nie jest dobre do używania go jako silnika rozpoznawania. (Chociaż dają ci wagę dla każdego słowa alternatywnego, więc może możesz go użyć)

Peter Štibraný
źródło
11

Ponadto Evernote najwyraźniej nie decyduje, że dany obraz jest równoważny dokładnie jednemu słowu - np. Evernote nie określa, że ​​dany obraz jest „wskazówką” i nie jest „należny”. Przeciwnie, będzie śledzić oba, a wyszukiwanie któregokolwiek zwróci ten sam obraz. Dlatego nie ma sposobu, aby uzyskać ekwiwalent pełnego tekstu, ponieważ Evernote nie decyduje, co to właściwie jest pełny tekst, a jedynie to, co może być.

Mike Dunham
źródło
5

evernote wypłaca przyzwoitą sumę twórcy ocr-stuff LUB zapłaciła przyzwoitą sumę, aby coś ze sobą współpracować. dlatego naprawdę wątpię, że pozwolą ci pobrać wyodrębniony tekst (+ pozycjonowanie na obrazie).

(może być modelem biznesowym do skanowania obrazów innych ludzi i zapewnienia dobrego ocr :))

więc odpowiedź brzmi: nie.

akira
źródło
3
To nie jest prawda. Istnieje interfejs API do uzyskiwania dokładnie tych informacji. Zobacz moją odpowiedź.
Peter Štibraný
2

Nie jestem pewien, ile zaawansowania potrzebujesz, ale ponieważ używam również Adobe Acrobat, po prostu kliknij prawym przyciskiem myszy załącznik Evernote, aby otworzyć go w Acrobat.

Następnie w programie Acrobat wybieram „Document | OCR text rozpoznawanie”, a następnie zapisuję dokument jako zwykły tekst.

Działa to dla mnie dobrze, ponieważ potrzebuję tylko sporadycznej konwersji OCR.

Bruce Kessel
źródło
1

Jeśli możesz pobrać wszystkie obrazy z Evernote, możesz wykonać OCR za pomocą Dokumentów Google.

Możesz przesłać folder obrazów do Dokumentów Google i przekonwertować je na Dokumenty, które będą zawierały zarówno obraz, jak i tekst OCRed.

Możesz następnie pobrać wszystkie te dokumenty jako zwykły tekst, co spowoduje usunięcie obrazu.

Jeśli nazwiesz wszystkie obrazy Evernote skrótem (np. md5), Powinno być łatwo połączyć pliki tekstowe pobrane z Dokumentów Google z oryginalnym obrazem.

Max Masnick
źródło
0

Korzystam z systemu Windows i używam Adobe Acrobat Pro i Word, więc wykonuję następujące czynności:

  1. jeśli plik nie jest zapisany jako JPG, kliknij ikonę gałki ocznej w lewym górnym rogu obrazu w Evernote, aby otworzyć go w przeglądarce zdjęć i kliknij Plik> „Wykonaj kopię”, aby zapisać jako JPG
  2. przejdź do pliku obrazu w Eksploratorze
  3. kliknij go prawym przyciskiem myszy i wybierz Konwertuj na Adobe PDF (plik otworzy się w programie Acrobat)
  4. kliknij Plik> Zapisz jako i wybierz Format tekstu sformatowanego z menu rozwijanego „Zapisz jako typ”, aby zapisać jako plik tekstowy (przetworzenie pliku zajmuje minutę)
  5. przejdź do pliku RTF w Eksploratorze i kliknij dwukrotnie, aby otworzyć w programie Word
  6. edytuj w razie potrzeby
Pete Nikolai
źródło
To wydaje się być radą, jak wyodrębnić tekst z danego pliku obrazu, a nie obraz w Evernote. Czy możesz wyjaśnić, w jaki sposób odpowiada to pierwotne pytanie, i czy robi to w sposób, w jaki poprzednie i zaakceptowane odpowiedzi nie?
music2myear