Wygląda na to, że wprowadzanie zmian, adnotacji, a nawet po prostu otwieranie i zapisywanie pliku PDF w podglądzie spowoduje znaczne zwiększenie rozmiaru pliku. Zauważyłem, że w przypadku niektórych zeskanowanych książek wydłuża to również czas renderowania strony.
Czy ktoś może rzucić nieco światła na to, co się dzieje, aby spowodować te zmiany? Interesuje mnie synchronizacja adnotacji e-booków PDF między podglądem a iPadem (może GoodReaderem), ale może to być zbyt niepraktyczne w przypadku dużych plików PDF.
Odpowiedzi:
W mało znanej powieści PDF Karenina Lew Tołstoj napisał:
Trudno, aby ktokolwiek odpowiedź dlaczego twoje pliki PDF są większe po Preview je modyfikuje. Plik PDF składa się z wielu różnych rodzajów danych: obrazów, strumieni treści, czcionek, narzutu dokumentu, przestrzeni kolorów, rozszerzonych stanów graficznych i tabeli porównawczej. Tak jak jedno zdanie może być zwięzłe, a drugie pełne, ale oba są poprawne po angielsku i mówią to samo, tak też jeden plik PDF może mieć bardziej szczegółowy sposób reprezentowania tej samej treści jako bardziej zwięzły plik PDF. Musimy spojrzeć na twoje dokładne pliki PDF. Prawdopodobnie zostały one utworzone przez wiele różnych programów, niektóre z nich składają się, a niektóre mniej.
Ma również znaczenie, jakiej wersji systemu Mac OS X i podglądu używasz, ponieważ to decyduje o oprogramowaniu, które zapisuje nowy plik PDF po wykonaniu polecenia Zapisz jako w podglądzie.
Mogę jednak powiedzieć, co powiększa się w niektórych moich plikach PDF. Ta historia dotyczy mojego komputera z systemem Mac OS X 10.5.8 i Apple Preview 4.2 (469.5).
Jeden plik
Giulio.pdf
to 22-stronicowy dokument zawierający tekst jako tekst, a nie zeskanowane obrazy. Ma 461 092 bajtów. Otworzyłem go w podglądzie, zrobiłem Plik ... Zapisz jako ... i zapisałem pod nową nazwą pliku. Nowy plik ma 724,421 bajtów lub jest o 57% większy.Każdy plik otworzyłem za pomocą Adobe Acrobat Professional, wersja 8.3.1 dla Mac OS. Zrobiłem Zaawansowane ... PDF Optimizer ... Przestrzeń Audytu Wykorzystanie ... . Małe okno dialogowe zawierało podział liczby bajtów związanych z każdą kategorią użycia oraz procent całkowitego rozmiaru pliku dla kategorii.
Oryginał
Giulio.pdf
ma 390 754 bajtów (84,75%) poświęconych strumieniom treści, a zero bajtów - obrazom. Jest w formacie PDF 1.4. Plik zapisany w programie Preview ma 675 846 bajtów (93,29%) poświęconych strumieniom treści, również zero bajtów obrazów i jest w formacie PDF 1.3. Preview powiększyła strumienie treści o 285 092 bajtów, co stanowi 73% różnicy między rozmiarami plików.Zastanawiałem się, czy format pliku PDF 1.3 jest z natury mniej wydajny do przechowywania tego rodzaju plików. Otworzyłem oryginał
Giulio.pdf
w Adobe Acrobat Professional 8 i zrobiłem Advanced ... PDF Optimizer ... Zgodność z: Acrobat 3.0 i nowszymi wersjami i nacisnąłem OK. Zapisałem wynikowy plik pod nową nazwą. Plik wynikowy ma format PDF 1.3 i miał 452 356 bajtów lub mniej niż oryginał. Jego strumienie zawartości to 375,171 bajtów (82,94%), podobny odsetek, ale mniejszy niż strumienie zawartości oryginalnego pliku.Wydaje się zatem, że możemy stwierdzić, że aplikacja Preview w systemie Mac OS X 10.5.8 nie jest tak wydajna jak niektórzy inni twórcy PDF w tworzeniu zwięzłych strumieni treści w plikach PDF, a różnica wystarcza, aby uwzględnić trzy czwarte różnicy wielkości w pliku PDF bez zdjęć.
Zrobiłem podobny eksperyment na
form k.pdf
1-stronicowym dokumencie zeskanowanym z papieru. Oryginalny plik ma 307 730 bajtów, z czego 298 197 bajtów (98,18%) to obrazy. Kopia tego pliku utworzona przez Preview za pomocą Save As ... ma 300 601 bajtów lub jest o 1% mniejsza. Ta różnica wielkości pliku jest więcej niż uwzględniona w mniejszej kategorii bajtów „narzutu dokumentu” w pliku utworzonym przez Preview.Wydaje się zatem, że możemy również stwierdzić, że podgląd nie zawsze powoduje zwiększenie rozmiaru pliku PDF. Zależy to od charakteru oryginalnego pliku PDF i tego, jak zwięzły był na początek.
źródło
Wiem, że jest już dość późno, ale znalazłem coś, co wydaje się działać, przynajmniej jeśli jest początkowo używane: próbowałem użyć filtra kwarcowego, aby „zmniejszyć rozmiar pliku”. Wygląda na to, że działa, ale nie jest domyślnie włączony. Mogę konkretnie wybrać go za pomocą menu Zapisz jako (przytrzymaj opcję), ale martwię się, że domyślnie jest to standardowa metoda automatycznych zapisów.
Oto, co się dla mnie dzieje i jak doszedłem do tej strony: PDF zaczyna się od książki o wielkości 91 MB 900 stron. Dodaję jedną adnotację i zapisuję ją, a plik przeskakuje do 2,29 GB. Co więcej, zapisywanie trwa wieczność, zwłaszcza, że zapisuję na dysku zewnętrznym. Dzięki Bogu napędem jest USB 3!
Czy w ogóle można wyodrębnić te adnotacje? Mogę dodawać adnotacje i wyróżniać w Goodreader i PDF Expert na moim iPadzie. Jeśli Preview nie pozwala mi tego zrobić na moim komputerze, czy jest tam jakaś inna aplikacja? Dlaczego nie może po prostu zapisać adnotacji / wyróżnień, ale nie próbować ponownie kompresować wszystkich zdjęć, tak jak za każdym razem zapisuję JPEG. Dzięki za pomoc!
źródło
Problem pozostaje poważny. W wersji zapoznawczej 7.0 (Mac OS 10.9.5.) Wygenerowałem plik pdf przy użyciu programu Acrobat 9.5.5. co spowodowało utworzenie pliku 5 MB. W podglądzie dodałem dokładnie 12 znaków (używając narzędzi edycji). Po zapisaniu tego pliku balon został zapełniony do 14 MB.
Możesz to naprawić, otwierając i zapisując ponownie w programie Acrobat (może być konieczne użycie opcji „zmniejsz rozmiar pliku”).
źródło
Nie można dodać wskazówek do rozwiązania. Mogę dodać podobny scenariusz (OS X 10.11.3): skanowany plik pdf o wadze ~ 800kb jest otwierany w podglądzie, kilka pustych zeskanowanych stronicowanych stron jest usuwanych, powstały dwustronicowy krótszy plik pdf to ~ 2,2Mb. „Opcja-Zapisz jako” i wybranie filtru kwarcowego „zmniejsz rozmiar pliku” powoduje kompresję pliku do ... 1,9 Mb.
Oryginalny plik został wygenerowany przez koparkę Xerox WC 7830, która z mojego doświadczenia (w porównaniu do poprzednich wielofunkcyjnych drukarek / kopiarek, jakie mieliśmy) tworzy całkiem dobrze zoptymalizowane zeskanowane pliki PDF.
Nie widać wizualnie żadnej różnicy w pliku; Domyślam się, że obrazy stron są ponownie kompresowane w 24bpp, podczas gdy oryginalny plik jest wyraźny przy użyciu znacznie mniejszej głębi kolorów, prawdopodobnie 6-bitowej (jest to wydrukowany i podpisany dokument, tylko tekst, skaner robi dobrą robotę białe tło czysta biel). Niestety, Podgląd nie jest wystarczająco sprytny, aby to wykryć i utrzymać, i wydaje się, że trzeba ponownie skompresować cały plik, chociaż na pozostałych stronach nie wprowadzono żadnych zmian (ponownie tylko kilka stron zostało usuniętych.
źródło