Dziwny problem z renderowaniem plików PDF

Mam plik PDF, który bardzo wolno się ładuje / wyświetla. Sądzę, że ma przezroczystość podobną do warstw (ponieważ pierwsza część jest renderowana, to druga warstwa wydaje się być renderowana na górze). Jest to raczej wysoka jakość.

Plik jest mały i ma około 75 KB / stronę. Próbowałem zoptymalizować plik pdf, zmniejszyć rozmiar pliku i eksportować do różnych jakości obrazu, takich jak JPEG, PNG i TIFF.

Kiedy eksportuję do png przy bardzo wysokiej rozdzielczości dpi, png wynosi 6 MB i ma prawie taką samą jakość jak pdf, ale jest prawie 100 razy większy. Zrobiłem jpeg przy około 200 dpi, czyli około 10 razy więcej, ale widoczna utrata jakości.

Nie rozumiem, dlaczego nie mogę uzyskać podobnej jakości i rozmiaru strony podczas eksportowania pliku pdf.

Jeśli wykonam jpeg o rozdzielczości 300 dpi z niską jakością kompresji, otrzymam obraz o podobnej jakości, ale nadal prawie 10 razy większy od pliku, ale renderuje się znacznie szybciej (przynajmniej w przypadku ifranview).

Plik pdf jest po prostu tekstem monochromatycznym, z wyjątkiem niektórych gradientowych efektów rozmycia na krawędziach czcionki, ale ma artefakty ze skanowania, które odbierają obraz po drugiej stronie.

Wiem na pewno, że problem dotyczy metody skanowania (prawdopodobnie używanego oprogramowania), ponieważ mam prawie dokładną kopię od innej, która jest znacznie szybsza (chociaż rozmiar pliku jest prawie 2x). Druga kopia nie ma „przezroczystości” podobnej do nakładania warstw podczas renderowania. Dlatego zgaduję, że ktoś zeskanował ten plik PDF i użył przezroczy jako opcji, która spieprzyła plik pdf. Acrobat nie wydaje się ułatwiać ich pozbywania się. Wszystkie elementy optymalizacji nie usuwają lub nie spłaszczają przezroczystości.

Podczas optymalizacji pdf widzę „spłaszczanie” w polu paska postępu. Jeśli zapisuję jako plik ps, jest to 100 razy większa i znacznie gorsza jakość w ghostscript. Kiedy następnie użyjesz distillera do konwersji tego z powrotem na pdf, otrzymam nowy plik PDF o jakości zbliżonej do oryginału, ładuję się szybciej, ale około 15 razy więcej!

Teraz sobie sprawę, że pracuję tylko z 4 stronami, oryginalny plik pdf to naprawdę 1000 stron i około 50 MB, jeśli to zapiszę na ps, to wybuchnie do około 5 GB (zakładając, że skaluje się liniowo). Konwersja z powrotem do formatu PDF zmniejszy to do około 500 MB i prawdopodobnie potrwa kilka lat.

Co się do cholery dzieje? Wydaje się, że podstawą sprawy są folie, ale nie mogę się ich pozbyć (spłaszczyć je) i wydają się pomagać w zmniejszaniu rozmiaru pliku z jakiegoś powodu. (Mam bardzo podobny plik PDF o rozmiarze około 2x bez folii lub wolnego renderowania i staram się osiągnąć ten sam efekt)

Wiem, że nie ma zbyt wielu konkretnych informacji, ale nie mogę przesłać plików PDF, ponieważ są one chronione prawem autorskim ...

pdf Archival
źródło

Po zrobieniu OCR w ABBYY zauważyłem, że wynik również wydaje się mieć „warstwy” podczas renderowania i jest bardzo powolny. Możliwe, że plik PDF został zeskanowany i ocr'ed (chociaż nie ma w nim prawdziwego tekstu).

Archival

Nie wiem, w jaki sposób „pdf jest po prostu tekstem monochromatycznym” pasującym do „nie ma prawdziwego tekstu”. Oczekuje się, że układ „zoptymalizowany” pochłonie więcej miejsca na dysku niż liniowy, wątpię, abym mógł odpowiedzieć na twoje pytanie, ale przykład może pomóc komuś innemu. nieszkodliwy tekst został skopiowany ponownie? Czy jesteś w stanie powrócić do źródła i zapytać, jakie opcje eksportu wybrali?

pnuts