Czy program Acrobat 11 może wykonywać OCR przy użyciu wielu rdzeni procesora?

8

Przetwarzanie OCR zajmuje dużo czasu. Korzystanie z wielu rdzeni procesora przyspieszy przetwarzanie. Acrobat 10 nie był aplikacją wielowątkową . Co powiesz na Acrobat 11? Czy 11 domyślnie robi OCR przy użyciu wielu rdzeni procesora (jeśli są dostępne)? Jeśli nie, czy istnieją jakieś obejścia, np. Skrypty, które pomagają programowi Acrobat 11 wykonywać OCR przy użyciu wielu rdzeni procesora? Albo przez wbudowany język skryptowy Acrobat, albo za pomocą zewnętrznych skryptów, które uruchamiają i kierują wiele instancji Acrobat w jednym wątku równolegle do części zadania przetwarzania.

Uwaga: To pytanie nie jest zbyt zlokalizowane (nie jest ograniczone do określonego momentu w czasie), ponieważ (1) Adobe nie wydaje bardzo często nowych głównych wersji programu Acrobat (Acrobat 10 został wydany dwa lata temu) oraz (2) Adobe Acrobat jest szeroko rozpowszechniony używana aplikacja.

tarcman.
źródło

Odpowiedzi:

6

Zainstalowałem wersję próbną Acrobat 11 (XI) w VirtualBox. Acrobat 11 jest jednowątkowy.

Stworzyłem również zewnętrzny skrypt, który uruchamia wiele wystąpień Acrobat (jeden na rdzeń procesora), równolegle przetwarza zadanie OCR i łączy wynik. Kluczowym krokiem jest włączenie rejestrowania błędów w preferencjach programu Acrobat, parsowanie wszystkich plików .log i ponowne przetwarzanie wszystkich plików błędów. Skrypt (przy użyciu 4 rdzeni) nadal wykonuje OCR ponad dwa razy szybciej niż domyślny Acrobat 11.

tarcman.
źródło
4
Jeśli chcesz, możesz podać źródło. Jeśli odważą się go usunąć, można go łatwo przywrócić.
Joey,
Ponadto, jeśli jesteś tą samą osobą, która opublikowała pytanie, rozważ połączenie obu swoich niezarejestrowanych kont z nowym, zarejestrowanym kontem. Możesz zacząć tutaj , a także przeczytać to, aby uzyskać więcej informacji. Następnie będziesz mógł zmienić swoje pytanie według własnego uznania.
Indrek,
Nie próbuję niczego blokować. Ponieważ ciągle zmieniasz nazwy użytkowników, wydawało się, że Twoje zmiany zostały wprowadzone przez firmę zewnętrzną, która nie rozumiała oryginalnego pytania. Ponadto, jeśli chcesz odpowiedzieć na własne pytanie, powinieneś napisać pytanie i odpowiedzieć na wszystko od razu.
Isaac Rabinovitch
Na razie scaliłem twoje (niezarejestrowane) konta. Prosimy jednak, abyś nie używał jednorazowego adresu e-mail, ale zarejestruj się na naszej stronie, abyś mógł pozostać zalogowany, komentować pytania i tak dalej. Ponadto nic nie zostanie usunięte, nie ma się czym martwić. Pamiętaj, że anonimowe zmiany są zawsze sprawdzane bardziej rygorystycznie.
slhck
1
@tarcman Czy istnieje możliwość opublikowania skryptu? Jestem pewien, że jest wiele osób, które byłyby zainteresowane korzystaniem z niego
Jason
1

Wielowątkowość musi być wbudowana w aplikację. Deweloper musi napisać kod, który tworzy wątki i który dzieli zadanie na podzadania, które można przypisać do każdego wątku. Jeśli programiści programu Acrobat nie zrobią tego dla swojego kodu rozpoznawania OCR, użytkownik nie ma możliwości stworzenia dodatkowej logiki.

Izaak Rabinowicz
źródło
2
Jeśli można go zastosować do zakresów stron, prawdopodobnie można by spróbować podzielić pracę na wiele procesów, każdy OCR składa się tylko z kilku stron, a następnie ponownie łączy wyniki.
Joey,
0

Aby użyć wszystkich rdzeni do OCR, możesz zajrzeć do edytora PDF-Exchange. Wygląda na to, że silnik OCR wykorzystuje wszystkie rdzenie w moim systemie. Po osiągnięciu tego poziomu wydajności warto użyć dysku SSD.

Musi istnieć poprawka systemu Windows, która spowoduje, że poświęci ona więcej czasu procesora jednej aplikacji wątkowej, która nie jest związana z operacjami we / wy. W moim systemie Acrobat nie jest spowalniany przez wydajność dysku, ale najwięcej czasu na procesor, jaki mam na zbudowanie indeksu, wynosi około 30%.

Spójrzmy prawdzie w oczy, Acrobat to powszechnie używana, ale źle napisana aplikacja. Acrobat Pro ma funkcje, których wciąż nie można uzyskać nigdzie indziej (jeszcze).

Len
źródło